LLM-рассуждение: формат вывода существенно влияет на производительность, особенно JSON

Строгие ограничения формата могут ослабить способность к рассуждению.

Исследование показало, что ограничения формата снижают способность больших языковых моделей (LLMs) к рассуждению, особенно в формате JSON. Основные выводы включают:

  1. Чем строже ограничения формата, тем хуже способность модели к рассуждению. JSON-схемы показали наихудшие результаты, за ними следуют инструкции по ограничению формата (FRI), затем преобразование естественного языка в формат, и наконец, подсказки на естественном языке.

  2. Разные модели имеют разные предпочтения в форматах: GPT предпочитает YAML, Claude предпочитает XML, Gemini/Gemma предпочитают JSON.

  3. Причины снижения способности к рассуждению из-за ограничений формата:

    • Ограничение способности генерировать промежуточные шаги рассуждения
    • Принудительное форматирование несовместимо с естественным способом генерации модели
    • Ошибки формата могут привести к неправильной оценке правильных рассуждений
  4. Решения:

    • Лучший вариант - "преобразование естественного языка в формат", сначала ответ на естественном языке, затем преобразование в целевой формат
    • Обратить внимание на порядок ключей в структурированном выводе
    • Уменьшение ошибок разбора с помощью корректирующих подсказок
  5. Необходим баланс между легко анализируемым форматом и сохранением способности к рассуждению.

  6. LLMs как анализаторы ответов лучше понимают смысл и контекст ответов, чем регулярные выражения.

Исследование показывает, что при применении LLMs необходимо найти компромисс между ограничениями формата и способностью к рассуждению для достижения оптимальной производительности.

Ссылка на статью