LLM-рассуждение: формат вывода существенно влияет на производительность, особенно JSON

Исследование показало, что ограничения формата снижают способность больших языковых моделей (LLMs) к рассуждению, особенно в формате JSON. Основные выводы включают:

Чем строже ограничения формата, тем хуже способность модели к рассуждению. JSON-схемы показали наихудшие результаты, за ними следуют инструкции по ограничению формата (FRI), затем преобразование естественного языка в формат, и наконец, подсказки на естественном языке.
Разные модели имеют разные предпочтения в форматах: GPT предпочитает YAML, Claude предпочитает XML, Gemini/Gemma предпочитают JSON.
Причины снижения способности к рассуждению из-за ограничений формата:
- Ограничение способности генерировать промежуточные шаги рассуждения
- Принудительное форматирование несовместимо с естественным способом генерации модели
- Ошибки формата могут привести к неправильной оценке правильных рассуждений
Решения:
- Лучший вариант - "преобразование естественного языка в формат", сначала ответ на естественном языке, затем преобразование в целевой формат
- Обратить внимание на порядок ключей в структурированном выводе
- Уменьшение ошибок разбора с помощью корректирующих подсказок
Необходим баланс между легко анализируемым форматом и сохранением способности к рассуждению.
LLMs как анализаторы ответов лучше понимают смысл и контекст ответов, чем регулярные выражения.

Исследование показывает, что при применении LLMs необходимо найти компромисс между ограничениями формата и способностью к рассуждению для достижения оптимальной производительности.

Ссылка на статью

LLM-рассуждение: формат вывода существенно влияет на производительность, особенно JSON

Строгие ограничения формата могут ослабить способность к рассуждению.