Команда Цзя Цзяя представила новый стандарт оценки: фокус на способности больших языковых моделей исправлять ошибки, GPT-4 показал результаты ниже ожидаемых

Охватывает несколько областей и имеет различные уровни сложности

Определение ошибок в заданных шагах решения.

Это предотвращает простое запоминание или угадывание ответов моделями и устраняет опасения по поводу утечки тестов.

Используя MR-Ben, команда Цзя оценила многие открытые и закрытые модели, включая GPT4-Turbo, Claude3.5-Sonnet, GLM4 и Qwen2-70B.

Весь код и данные для этого набора данных были открыты.

Знакомые вопросы, совершенно новая задача

Текущие основные методы оценки больших языковых моделей используют стандартизированные человеческие тесты - вопросы с множественным выбором и заполнением пропусков.

Этот подход имеет четкие стандарты, интуитивно понятные метрики и естественным образом генерирует количественные результаты, достойные обсуждения.

Однако авторы утверждают, что этот метод не является "надежным", учитывая, что современные большие языковые модели обычно используют рассуждения по цепочке мыслей для генерации окончательных ответов.

Поскольку предварительно обученные модели видели триллионы токенов во время предварительного обучения, ### трудно определить, видела ли оцениваемая модель уже соответствующие данные и просто "запоминает" правильные ответы.

Кроме того, поскольку оценка в основном проверяет окончательный ответ, ### неясно, выбрала ли модель правильный вариант на основе правильного понимания и рассуждения.

Хотя академическое сообщество постоянно обновляет такие наборы данных, как GSM8K и MMLU, например, вводя многоязычные версии или более сложные вопросы, они все равно не могут избежать ограничений форматов с множественным выбором или заполнением пропусков.

Более того, эти наборы данных теперь сталкиваются с серьезными ### проблемами насыщения, когда большие языковые модели достигают пиковой производительности и постепенно теряют дискриминационную силу.

Чтобы решить эту проблему, команда Цзя сотрудничала с MIT, Университетом Цинхуа, Кембриджем и другими известными университетами, а также с ведущими китайскими компаниями по аннотированию, чтобы создать MR-Ben - набор данных для оценки, ориентированный на сложные процессы рассуждений при решении проблем.

MR-Ben основан на вопросах из основных наборов данных для предварительного обучения больших моделей, таких как GSM8K, MMLU, LogiQA и MHPP. Он применяет парадигмальный сдвиг в стиле "оценивания" для создания нового набора данных, который является более сложным, более дискриминационным и лучше отражает истинные способности к рассуждению.

Вместо того чтобы искать новые вопросы или модифицировать существующие для проверки устойчивости модели, MR-Ben напрямую превращает модели из "сдающих тест" в "оценивающих", заставляя их оценивать существующие процессы решения. Это проверяет их владение знаниями, заставляя их действовать как учителей!

В частности, команда Цзя организовала основные наборы данных для оценки, такие как GSM8K, MMLU, LogiQA и MHPP, по категориям, таким как математика/физика/химия/биология, программирование, логика и медицина, с разными уровнями сложности.

Для каждой категории и собранного вопроса команда тщательно собрала соответствующие пошаговые процессы решения. Затем они были аннотированы обученными профессионалами с магистерскими и докторскими степенями.

Во время аннотирования тщательно определяются правильность процесса решения, где возникают ошибки и причины ошибок. Сравнение результатов оценивания модели с оцениванием экспертов-людей раскрывает уровень владения знаниями модели.

С точки зрения оценки, метод, предложенный MR-Ben, требует от моделей тщательного анализа предпосылок, допущений и логики каждого шага в процессе решения, а также моделирования процесса рассуждения, чтобы определить, приводит ли текущий шаг к правильному ответу.

Этот стиль оценки "оценивания" гораздо сложнее, чем просто ответы на вопросы, но он эффективно избегает завышенных оценок из-за запоминания. Студенты, которые могут только запоминать ответы, будут испытывать трудности в качестве компетентных оценщиков.

GPT4-Turbo показывает лучшие результаты

Команда Цзя оценила несколько известных больших языковых моделей, при этом были протестированы несколько версий некоторых моделей.

Среди закрытых моделей GPT4-Turbo показала лучшие результаты (хотя ей не удалось обнаружить ошибки в вычислениях при "оценивании"), опережая другие модели по большинству предметов как в демонстрационных (k=1), так и в недемонстрационных (k=0) настройках.

Модель GLM от Zhipu AI заняла второе место в рейтинге, превзойдя последнюю версию Claude 3.5-Sonnet.

Однако между моделями существуют значительные различия. Даже самый сильный исполнитель, GPT4-Turbo, набрал менее 50 баллов на наборе данных MR-Ben, что указывает на то, что его производительность все еще далека от насыщения.

Кроме того, некоторые высокопроизводительные модели с открытым исходным кодом догнали определенные коммерческие модели.

Команда MR-Ben также обнаружила некоторые интересные явления во время своей работы:

  • В сценариях с низким уровнем ресурсов небольшие модели показали заметные сильные стороны. Phi-3-mini выделилась среди небольших моделей в оценке MR-Ben, даже превзойдя или сравнявшись с моделями с сотнями миллиардов параметров, демонстрируя важность данных для тонкой настройки.

  • Сценарии MR-Ben включают сложный логический анализ и пошаговые рассуждения. В режиме с небольшим количеством примеров слишком длинные контексты фактически запутывали модели, приводя к снижению производительности.

  • MR-Ben оценил многочисленные эксперименты по абляции генерации-рефлексии-регенерации, чтобы изучить различия между стратегиями подсказок. Это не повлияло на низкопроизводительные модели и мало повлияло на высокопроизводительные модели, такие как GPT4-Turbo. Для моделей среднего уровня это немного улучшило производительность, так как они иногда исправляли ошибки, но также вводили новые.

  • При грубом разделении предметов оценки MR-Ben на категории, основанные на знаниях, логике, вычислениях и алгоритмах, разные модели показали различные сильные и слабые стороны в разных типах рассуждений.

Команда Цзя загрузила метод оценки в один клик на GitHub. Одно тестирование потребляет около 12 миллионов токенов. Разработчики могут оценить свои собственные модели и отправить результаты, которые команда MR-Ben оперативно обновит в таблице лидеров.

Ссылка на статью

Домашняя страница проекта

Репозиторий GitHub