Identificación de errores en los pasos de solución dados.
Esto evita que los modelos simplemente memoricen o adivinen respuestas, y elimina las preocupaciones sobre filtraciones de exámenes.
Utilizando MR-Ben, el equipo de Jia evaluó muchos modelos de código abierto y cerrado, incluyendo GPT4-Turbo, Claude3.5-Sonnet, GLM4 y Qwen2-70B.
Todo el código y los datos de este conjunto de datos se han publicado como código abierto.
Preguntas familiares, tarea totalmente nueva
Los métodos de evaluación actuales para modelos de lenguaje grandes utilizan pruebas humanas estandarizadas: preguntas de opción múltiple y de rellenar espacios en blanco.
Este enfoque tiene estándares claros, métricas intuitivas y genera naturalmente resultados cuantitativos dignos de discusión.
Sin embargo, los autores argumentan que este método no es "confiable" dado que los modelos de lenguaje grandes modernos generalmente utilizan razonamiento de cadena de pensamiento para generar respuestas finales.
Con modelos pre-entrenados que han visto billones de tokens durante el pre-entrenamiento, ### es difícil determinar si un modelo evaluado ya ha visto los datos relevantes y simplemente está "memorizando" las respuestas correctas.
Además, debido a que la evaluación principalmente verifica la respuesta final, ### no está claro si el modelo eligió la opción correcta basándose en una comprensión y razonamiento adecuados.
Aunque la comunidad académica actualiza continuamente conjuntos de datos como GSM8K y MMLU, como introducir versiones multilingües o preguntas más difíciles, aún no pueden escapar de las limitaciones de los formatos de opción múltiple o de rellenar espacios en blanco.
Además, estos conjuntos de datos ahora enfrentan serios ### problemas de saturación, con modelos de lenguaje grandes alcanzando el máximo rendimiento y perdiendo gradualmente poder discriminativo.
Para abordar esto, el equipo de Jia colaboró con MIT, Tsinghua, Cambridge y otras universidades reconocidas, así como con empresas líderes chinas de anotación, para crear MR-Ben - un conjunto de datos de evaluación centrado en procesos de razonamiento para resolución de problemas complejos.
MR-Ben se basa en preguntas de conjuntos de datos esenciales de pre-entrenamiento de modelos grandes como GSM8K, MMLU, LogiQA y MHPP. Aplica un cambio de paradigma de "estilo de calificación" para crear un nuevo conjunto de datos que es más desafiante, más discriminativo y refleja mejor las verdaderas habilidades de razonamiento.
En lugar de buscar nuevas preguntas o modificar las existentes para probar la robustez del modelo, MR-Ben transforma directamente los modelos de "examinados" a "calificadores", haciéndoles evaluar procesos de solución existentes. ¡Esto prueba su dominio de los puntos de conocimiento haciéndolos actuar como maestros!
Específicamente, el equipo de Jia organizó conjuntos de datos de evaluación convencionales como GSM8K, MMLU, LogiQA y MHPP en categorías como matemáticas/física/química/biología, codificación, lógica y medicina, con diferentes niveles de dificultad.
Para cada categoría y pregunta recopilada, el equipo reunió cuidadosamente los procesos de solución paso a paso correspondientes. Estos fueron luego anotados por profesionales capacitados con títulos de maestría y doctorado.
Durante la anotación, se identifican meticulosamente si el proceso de solución es correcto, dónde ocurren errores y las razones de los errores. Comparar los resultados de calificación del modelo con la calificación de expertos humanos revela el dominio de los puntos de conocimiento del modelo.
Desde una perspectiva de evaluación, el método propuesto por MR-Ben requiere que los modelos analicen cuidadosamente las premisas, suposiciones y lógica de cada paso en el proceso de solución, y simulen el proceso de razonamiento para determinar si el paso actual conduce a la respuesta correcta.
Este estilo de evaluación de "calificación" es mucho más desafiante que simplemente responder preguntas, pero evita efectivamente puntajes inflados debido a la memorización. Los estudiantes que solo pueden memorizar respuestas tendrían dificultades para ser calificadores competentes.
GPT4-Turbo tiene el mejor desempeño
El equipo de Jia evaluó varios modelos de lenguaje grandes conocidos, con múltiples versiones de algunos modelos probados.
Entre los modelos de código cerrado, GPT4-Turbo tuvo el mejor desempeño (aunque no logró detectar errores de cálculo al "calificar"), superando a otros modelos en la mayoría de las materias tanto en configuraciones de demostración (k=1) como sin demostración (k=0).
El modelo GLM de Zhipu AI se ubicó en segundo lugar en la tabla de clasificación, superando la última versión 3.5-Sonnet de Claude.
Sin embargo, hay diferencias significativas entre los modelos. Incluso el de mejor desempeño, GPT4-Turbo, obtuvo menos de 50 puntos en el conjunto de datos MR-Ben, lo que indica que su rendimiento aún está lejos de estar saturado.
Además, algunos modelos de código abierto de alto rendimiento han alcanzado a ciertos modelos comerciales.
El equipo de MR-Ben también descubrió algunos fenómenos interesantes durante su trabajo:
-
En escenarios de bajos recursos, los modelos pequeños mostraron fortalezas notables. Phi-3-mini se destacó entre los modelos pequeños en la evaluación MR-Ben, incluso superando o igualando a modelos con cientos de miles de millones de parámetros, demostrando la importancia de los datos de ajuste fino.
-
Los escenarios de MR-Ben involucran análisis lógico complejo y razonamiento paso a paso. En modo de pocos ejemplos, los contextos demasiado largos en realidad confundieron a los modelos, llevando a una disminución del rendimiento.
-
MR-Ben evaluó numerosos experimentos de ablación de generar-reflexionar-regenerar para examinar las diferencias entre estrategias de indicación. Esto no tuvo efecto en modelos de bajo rendimiento y poco efecto en modelos de alto rendimiento como GPT4-Turbo. Para modelos de nivel medio, mejoró ligeramente el rendimiento ya que a veces corregían errores pero también introducían nuevos.
-
Al dividir aproximadamente las materias de evaluación de MR-Ben en categorías basadas en conocimiento, lógica, cálculo y algoritmos, diferentes modelos mostraron diversas fortalezas y debilidades en los tipos de razonamiento.
El equipo de Jia ha subido un método de evaluación con un solo clic en GitHub. Probar una vez consume alrededor de 12M tokens. Los desarrolladores pueden evaluar sus propios modelos y enviar resultados, que el equipo de MR-Ben actualizará rápidamente en la tabla de clasificación.