研究發現格式限制會降低大語言模型(LLMs)的推理能力,尤其是在JSON格式下。主要結論包括:
-
格式限制越嚴格,模型推理能力越差。JSON模式表現最差,其次是格式限制指令(FRI),然後是自然語言到格式轉換,最後是自然語言提示。
-
不同模型對格式有不同偏好:GPT偏好YAML,Claude偏好XML,Gemini/Gemma偏好JSON。
-
格式限制降低推理能力的原因:
- 限制了生成中間推理步驟的能力
- 強制格式與模型自然生成方式不兼容
- 格式錯誤可能導致正確推理被判錯
-
解決方案:
- 最佳方案是"自然語言到格式轉換",先用自然語言回答,再轉換為目標格式
- 注意結構化輸出中鍵的順序
- 通過糾正提示減少解析錯誤
-
在易解析格式和保留推理能力間需要平衡。
-
LLMs作為答案解析器比正則表達式更能理解答案含義和上下文。
研究表明在應用LLMs時需要權衡格式限制和推理能力,以獲得最佳性能。