AIがどれだけ賢く、難しい問題を解けるかを図る指標です。
Humanity’s Last Exam (HLE):
内容: 学術的な難問(テキストとマルチモーダル)のセット。
意味: 既存のテストでは測定しきれなくなったAIのために作られた、非常に難易度の高い「人類最後の試験」的な位置づけのテストです。
GPQA Diamond:
内容: 専門家(博士号レベル)しか解けないような科学的知識を問う問題。
意味: 「ネットで検索してもすぐには答えが見つからない」ような、高度な専門知識の有無を測ります。
ARC-AGI-2:
内容: 視覚的なパズル問題。
意味: 事前知識ではなく、その場で法則性を見つけ出す「流動性知能(IQテストに近い能力)」を測ります。
SimpleQA Verified:
内容: 事実に基づいた知識問題。
意味: AIが知ったかぶり(ハルシネーション)をせず、正しい知識を答えられるかを測ります。
論理的な計算能力を測ります。
AIME 2025:
内容: アメリカの数学選抜試験の問題。
意味: 非常に高度な数学的・論理的思考力を測定します。
プログラミング能力や、PC操作の自律性を測ります。
SWE-bench Verified:
内容: 実際のソフトウェア開発(GitHub上の課題)を解決する能力。
意味: 単なるコード生成ではなく、「バグを見つけて修正する」というエンジニアの実務能力を測ります。
LiveCodeBench Pro:
内容: AtCoderなどの競技プログラミングの問題。
意味: 難解なアルゴリズムを実装する能力を測ります。
Terminal-bench 2.0:
内容: Linuxなどのターミナル(黒い画面)でのコマンド操作。
意味: コマンドラインを使ってPCを操作する能力です。
画像、動画、図表、画面などを「見る」能力です。
MMMU-Pro:
内容: 大学レベルの知識を要する、画像とテキストが混ざった問題。
意味: 図解入りの教科書を理解するような、総合的な視覚理解力です。
Video-MMMU:
内容: 動画を見て、その内容に関する質問に答えるテスト。
意味: 映像の流れや文脈を理解する能力です。
ScreenSpot-Pro:
内容: PCやスマホの画面(GUI)の理解。
意味: 「このボタンはどこ?」など、画面上の要素を正しく認識できるか(AIエージェントとして重要)を測ります。
CharXiv Reasoning:
内容: 複雑なチャートやグラフの読み取り。
意味: 論文やレポートにある図表から情報を引き出す能力です。
OmniDocBench 1.5 (OCR):
内容: ドキュメント画像の文字認識。
意味: スキャンした書類などをどれだけ正確にテキスト化できるかです(数値が低いほど優秀)。
AIが自律的に道具を使ったり、長い作業を行ったりする能力です。
Toolathlon / $\tau$2-bench:
内容: 外部ツール(検索や計算機など)を使ってタスクをこなす能力。
意味: AIが自分だけで完結せず、道具を適切に使いこなせるかを測ります。
MCP Atlas / Vending-Bench 2:
内容: 複数のステップにわたる複雑なワークフローや、長期的なやり取り。
意味: 長い会話や作業の中で、目的を見失わずに一貫した行動が取れるかを測ります。
FACTS Benchmark Suite:
内容: 事実確認(ファクトチェック)能力。
意味: 検索などを駆使して、嘘をつかずに正確な情報を提供する能力です。
言葉の理解力や、大量の情報の処理能力です。
MMMLU:
内容: 多言語での質疑応答。
意味: 英語以外の言語(日本語含む)での賢さを測ります。
Global PIQA:
内容: 世界各国の文化や常識に基づいた推論。
意味: 文化的な背景知識や「常識」をどれだけ持っているかです。
MRCR v2 (8-needle):
内容: 膨大なテキストの中から、特定の情報を見つけ出す(Needle in a haystack)。
意味: 非常に長い文章(本数冊分など)を読ませたときに、重要な情報を忘れずに抽出できるかを測ります。