生成AIモデルのベンチマーク指標の説明

生成AIモデルのベンチマーク指標の説明

利用可能な生成AIモデルのページでは、参考情報として、googleやAnthlopicなどの公式が発表している各生成AIモデルのベンチマークデータを公開しています。
ベンチマークの各指標の内容については、こちらの解説を参照ください。

1. 高度な推論・知識(Reasoning & Knowledge)

AIがどれだけ賢く、難しい問題を解けるかを図る指標です。

  • Humanity’s Last Exam (HLE):

    • 内容: 学術的な難問(テキストとマルチモーダル)のセット。

    • 意味: 既存のテストでは測定しきれなくなったAIのために作られた、非常に難易度の高い「人類最後の試験」的な位置づけのテストです。

  • GPQA Diamond:

    • 内容: 専門家(博士号レベル)しか解けないような科学的知識を問う問題。

    • 意味: 「ネットで検索してもすぐには答えが見つからない」ような、高度な専門知識の有無を測ります。

  • ARC-AGI-2:

    • 内容: 視覚的なパズル問題。

    • 意味: 事前知識ではなく、その場で法則性を見つけ出す「流動性知能(IQテストに近い能力)」を測ります。

  • SimpleQA Verified:

    • 内容: 事実に基づいた知識問題。

    • 意味: AIが知ったかぶり(ハルシネーション)をせず、正しい知識を答えられるかを測ります。

2. 数学・科学(Math & Science)

論理的な計算能力を測ります。

  • AIME 2025:

    • 内容: アメリカの数学選抜試験の問題。

    • 意味: 非常に高度な数学的・論理的思考力を測定します。

3. コーディング・エンジニアリング(Coding & Agent)

プログラミング能力や、PC操作の自律性を測ります。

  • SWE-bench Verified:

    • 内容: 実際のソフトウェア開発(GitHub上の課題)を解決する能力。

    • 意味: 単なるコード生成ではなく、「バグを見つけて修正する」というエンジニアの実務能力を測ります。

  • LiveCodeBench Pro:

    • 内容: AtCoderなどの競技プログラミングの問題。

    • 意味: 難解なアルゴリズムを実装する能力を測ります。

  • Terminal-bench 2.0:

    • 内容: Linuxなどのターミナル(黒い画面)でのコマンド操作。

    • 意味: コマンドラインを使ってPCを操作する能力です。

4. マルチモーダル・視覚認識(Multimodal & Vision)

画像、動画、図表、画面などを「見る」能力です。

  • MMMU-Pro:

    • 内容: 大学レベルの知識を要する、画像とテキストが混ざった問題。

    • 意味: 図解入りの教科書を理解するような、総合的な視覚理解力です。

  • Video-MMMU:

    • 内容: 動画を見て、その内容に関する質問に答えるテスト。

    • 意味: 映像の流れや文脈を理解する能力です。

  • ScreenSpot-Pro:

    • 内容: PCやスマホの画面(GUI)の理解。

    • 意味: 「このボタンはどこ?」など、画面上の要素を正しく認識できるか(AIエージェントとして重要)を測ります。

  • CharXiv Reasoning:

    • 内容: 複雑なチャートやグラフの読み取り。

    • 意味: 論文やレポートにある図表から情報を引き出す能力です。

  • OmniDocBench 1.5 (OCR):

    • 内容: ドキュメント画像の文字認識。

    • 意味: スキャンした書類などをどれだけ正確にテキスト化できるかです(数値が低いほど優秀)。

5. エージェント・長期タスク(Agentic & Long Context)

AIが自律的に道具を使ったり、長い作業を行ったりする能力です。

  • Toolathlon / $\tau$2-bench:

    • 内容: 外部ツール(検索や計算機など)を使ってタスクをこなす能力。

    • 意味: AIが自分だけで完結せず、道具を適切に使いこなせるかを測ります。

  • MCP Atlas / Vending-Bench 2:

    • 内容: 複数のステップにわたる複雑なワークフローや、長期的なやり取り。

    • 意味: 長い会話や作業の中で、目的を見失わずに一貫した行動が取れるかを測ります。

  • FACTS Benchmark Suite:

    • 内容: 事実確認(ファクトチェック)能力。

    • 意味: 検索などを駆使して、嘘をつかずに正確な情報を提供する能力です。

6. 言語・文脈処理(Language & Context)

言葉の理解力や、大量の情報の処理能力です。

  • MMMLU:

    • 内容: 多言語での質疑応答。

    • 意味: 英語以外の言語(日本語含む)での賢さを測ります。

  • Global PIQA:

    • 内容: 世界各国の文化や常識に基づいた推論。

    • 意味: 文化的な背景知識や「常識」をどれだけ持っているかです。

  • MRCR v2 (8-needle):

    • 内容: 膨大なテキストの中から、特定の情報を見つけ出す(Needle in a haystack)。

    • 意味: 非常に長い文章(本数冊分など)を読ませたときに、重要な情報を忘れずに抽出できるかを測ります。


    • Related Articles

    • 利用可能な生成AIモデル

      2026年1月16日時点の情報に基づきます。 Patentfieldキープラン ベンダー モデル 入力トークン 出力トークン 入力コスト $/Mトークン 出力コスト $/Mトークン 画像対応 推論対応 OpenAI gpt-5.2-2025-12-11 400,000 128,000 1.75 14 ○ ○ OpenAI gpt-5.1-2025-11-13 400,000 128,000 1.25 10 ○ ○ OpenAI gpt-5-2025-08-07 400,000 128,000 ...
    • Patentfield AIR サービス概要

      Patentfield AIR サービス紹介動画 Patentfield AIR3つのステップ Patentfield AIRは、3つのステップでご利用いただけます。 ①STEP1:査読設定条件の作成プロンプトの作成にあたります。公報内容のどの項目に対し、何をしてほしいのか等、指示内容を設定します。 ②STEP2:査読対象集団の検索条件追加調査したい査読対象集団の検索条件を作成し、STEP1で設定した査読条件を用いて、検索母集団に対して、査読条件を適用します。 ...
    • Patentfield AIR 活用シーン

      公報の独自要約 特許公報の「要約」では把握できない内容や、特許文書に馴染みのない人でも読みやすい平素な文章で公報内容を独自に要約することができます。 サンプル指示文 この特許文書の主要な発明内容を、技術的背景や課題、解決手段、効果などを含めて、200字程度で要約してください。特許的な抽象的な表現は避け、可能な限り具体的な例を平易な言葉で説明し、技術者が理解しやすいように表現してください。 出力結果 特徴語抽出 ...
    • 検索条件の追加

      STEP2 査読対象集団の検索条件追加 査読設定一覧の表示 STEP1で「査読条件を保存」をクリックすると、作成した各査読条件は「査読設定一覧」画面に表示され、選択可能な状態になります。 事前に設定した条件を用いて新たに査読からスタートする場合は、Patentfieldトップメニューの「AI査読支援」より、「査読設定一覧」を選択してください。 査読設定条件の選択・追加 実行したい査読設定条件の「追加」をクリックします。 ...
    • よくある質問

      申込・サービス関連 Q.無料トライアルはありますか? A.はい、2週間の無料トライアルを受付しています。詳細は、下記リンク先をご参照ください。 https://support.patentfield.com/portal/ja/kb/articles/patentfield-air-%E7%94%9F%E6%88%90ai%E8%AA%BF%E6%9F%BB-%E5%88%86%E6%9E%90%E3%82%AA%E3%83%97%E3%82%B7%E3%83%A7%E3%83%B3#_12 ...