LLM推論:出力フォーマットはパフォーマンスに大きな影響を与え、特にJSONが顕著

厳格な形式の制限は推論能力を損なう可能性があります。

研究によると、フォーマットの制限が大規模言語モデル(LLMs)の推論能力を低下させることが分かりました。特にJSONフォーマットで顕著です。主な結論は以下の通りです:

  1. フォーマットの制限が厳しいほど、モデルの推論能力は低下します。JSONスキーマが最も悪く、次にフォーマット制限指示(FRI)、自然言語からフォーマットへの変換、最後に自然言語プロンプトの順です。

  2. モデルによってフォーマットの好みが異なります:GPTはYAML、ClaudeはXML、Gemini/GemmaはJSONを好みます。

  3. フォーマット制限が推論能力を低下させる理由:

    • 中間推論ステップを生成する能力を制限する
    • モデルの自然な生成方法と互換性のないフォーマットを強制する
    • フォーマットエラーにより正しい推論が誤りと判断される可能性がある
  4. 解決策:

    • 最適な方法は「自然言語からフォーマットへの変換」で、まず自然言語で回答し、その後目標フォーマットに変換する
    • 構造化出力におけるキーの順序に注意する
    • 修正プロンプトを通じて解析エラーを減らす
  5. 解析しやすいフォーマットと推論能力の保持のバランスが必要です。

  6. LLMsは正規表現よりも回答の意味や文脈をよく理解できる回答パーサーとして機能します。

この研究は、LLMsを適用する際にフォーマット制限と推論能力のトレードオフを考慮し、最適なパフォーマンスを得る必要があることを示しています。

論文リンク