LLM推理:输出格式对性能影响显著,JSON尤为严重

严格的格式限制可能会削弱推理能力。

研究发现格式限制会降低大语言模型(LLMs)的推理能力,尤其是在JSON格式下。主要结论包括:

  1. 格式限制越严格,模型推理能力越差。JSON模式表现最差,其次是格式限制指令(FRI),然后是自然语言到格式转换,最后是自然语言提示。

  2. 不同模型对格式有不同偏好:GPT偏好YAML,Claude偏好XML,Gemini/Gemma偏好JSON。

  3. 格式限制降低推理能力的原因:

    • 限制了生成中间推理步骤的能力
    • 强制格式与模型自然生成方式不兼容
    • 格式错误可能导致正确推理被判错
  4. 解决方案:

    • 最佳方案是"自然语言到格式转换",先用自然语言回答,再转换为目标格式
    • 注意结构化输出中键的顺序
    • 通过纠正提示减少解析错误
  5. 在易解析格式和保留推理能力间需要平衡。

  6. LLMs作为答案解析器比正则表达式更能理解答案含义和上下文。

研究表明在应用LLMs时需要权衡格式限制和推理能力,以获得最佳性能。

论文链接