LLM推理:輸出格式對性能影響顯著,JSON尤甚

嚴格的格式限制可能會削弱推理能力。

研究發現格式限制會降低大語言模型(LLMs)的推理能力,尤其是在JSON格式下。主要結論包括:

  1. 格式限制越嚴格,模型推理能力越差。JSON模式表現最差,其次是格式限制指令(FRI),然後是自然語言到格式轉換,最後是自然語言提示。

  2. 不同模型對格式有不同偏好:GPT偏好YAML,Claude偏好XML,Gemini/Gemma偏好JSON。

  3. 格式限制降低推理能力的原因:

    • 限制了生成中間推理步驟的能力
    • 強制格式與模型自然生成方式不兼容
    • 格式錯誤可能導致正確推理被判錯
  4. 解決方案:

    • 最佳方案是"自然語言到格式轉換",先用自然語言回答,再轉換為目標格式
    • 注意結構化輸出中鍵的順序
    • 通過糾正提示減少解析錯誤
  5. 在易解析格式和保留推理能力間需要平衡。

  6. LLMs作為答案解析器比正則表達式更能理解答案含義和上下文。

研究表明在應用LLMs時需要權衡格式限制和推理能力,以獲得最佳性能。

論文連結