"Hacerlo grande y fuerte", también se está intensificando fuertemente hacia "hacerlo pequeño y refinado".
Superar a GPT-4 ya no es el único KPI, los grandes modelos han entrado en un período clave de competencia por el mercado. Para impresionar a los usuarios, no basta con presumir de capacidad técnica, también hay que demostrar que el modelo propio tiene mejor relación calidad-precio: ### modelo más pequeño con el mismo rendimiento, mayor rendimiento y menor costo con los mismos parámetros.
De hecho, esta tendencia técnica de "reducción de tamaño de los grandes modelos" ya comenzó a gestarse en la segunda mitad del año pasado.
Los que cambiaron las reglas del juego fueron dos empresas. Una es la startup de IA francesa Mistral AI, que sorprendió a todos en septiembre del año pasado al derrotar al Llama 2 de 13 mil millones de parámetros con un gran modelo de 7 mil millones de parámetros, ganando fama en la comunidad de desarrolladores. La otra es la startup china de IA Mianbi Intelligence, que lanzó en febrero de este año el modelo MiniCPM aún más condensado para dispositivos, logrando un rendimiento superior al de Llama 2 13B con solo 2.4 mil millones de parámetros.
Ambas startups tienen una excelente reputación en la comunidad de desarrolladores, con varios modelos en lo más alto de las listas de código abierto. Especialmente Mianbi Intelligence, incubada en el Laboratorio de Procesamiento del Lenguaje Natural de la Universidad de Tsinghua, causó revuelo este año cuando equipos de universidades estadounidenses de primer nivel "empaquetaron" su modelo multimodal. El trabajo original de Mianbi ha sido reconocido en círculos académicos nacionales e internacionales, dando un impulso a los modelos de IA de código abierto producidos en China.
Apple también comenzó a investigar modelos para dispositivos que se adapten mejor a los teléfonos móviles desde el año pasado. OpenAI, que siempre ha seguido una ruta de expansión agresiva, es un nuevo participante relativamente inesperado. El lanzamiento del modelo ligero GPT-4 mini la semana pasada significa que el líder de los grandes modelos está bajando activamente de su "pedestal" y comenzando a seguir la tendencia de la industria, tratando de aprovechar un mercado más amplio con modelos más baratos y accesibles.
¡2024 será un año clave para la "miniaturización" de los grandes modelos!
I. La "Ley de Moore" de la era de los grandes modelos: la eficiencia es la clave para la sostenibilidad
El desarrollo actual de grandes modelos está atrapado en una inercia: ### gran poder produce milagros.
En 2020, un artículo de OpenAI verificó que existe una fuerte correlación entre el rendimiento del modelo y su escala. Simplemente ingiriendo más datos de alta calidad y entrenando modelos de mayor volumen, se podía obtener un mayor rendimiento.
Siguiendo este camino simple pero efectivo, en los últimos dos años se ha desatado una carrera vertiginosa a nivel mundial por conseguir modelos cada vez más grandes. Esto ha plantado las semillas de una hegemonía algorítmica, donde solo los equipos con abundantes fondos y poder computacional tienen el capital para participar a largo plazo en la competencia.
El año pasado, el CEO de OpenAI, Sam Altman, reveló que el costo de entrenar GPT-4 fue de al menos ### 100 millones de dólares. Sin un modelo de negocio altamente rentable a la vista, incluso las grandes empresas tecnológicas con abundantes recursos financieros difícilmente pueden sostener inversiones a largo plazo sin considerar los costos. El ecosistema tampoco puede tolerar un juego de gasto ilimitado.
La brecha de rendimiento entre los principales modelos de lenguaje grandes se está reduciendo visiblemente. Aunque GPT-4 se mantiene firmemente en el primer lugar, la diferencia en las puntuaciones de las pruebas de referencia con Claude 3 Opus y Gemini 1.5 Pro no es abismal. En algunas capacidades, los grandes modelos de decenas de miles de millones incluso pueden lograr un rendimiento superior. El tamaño del modelo ya no es el único factor determinante que afecta el rendimiento.
No es que los grandes modelos de primer nivel carezcan de atractivo, es que los modelos ligeros ofrecen una mejor relación calidad-precio.
La siguiente imagen es una gráfica de tendencias de costos de inferencia de IA compartida por la ingeniera de IA Karina Ngugen en las redes sociales a finales de marzo de este año, que ilustra claramente la relación entre el rendimiento de los grandes modelos de lenguaje en el punto de referencia MMLU y sus costos desde 2022: a medida que pasa el tiempo, los modelos de lenguaje obtienen puntuaciones de precisión MMLU más altas, mientras que los costos relacionados disminuyen significativamente. Los nuevos modelos alcanzan una precisión de alrededor del 80%, mientras que los costos pueden ser varios órdenes de magnitud más bajos que hace unos años.
El mundo está cambiando muy rápidamente, y en estos meses ha habido una nueva ola de modelos ligeros económicamente eficientes.
"¡La competencia por el tamaño de los grandes modelos de lenguaje se está intensificando... hacia atrás!" apuesta el gurú tecnológico de IA Andrej Karpathy: "Veremos modelos muy, muy pequeños 'pensando' muy bien y de manera confiable".
Capacidad del modelo ÷ Parámetros del modelo involucrados en el cálculo = Densidad de conocimiento, esta dimensión de medición puede representar la fuerte inteligencia que pueden tener los modelos con la misma escala de parámetros. El gran modelo GPT-3 lanzado en junio de 2020 tenía 175 mil millones de parámetros. En febrero de este año, el modelo MiniCPM-2.4B de Mianbi Intelligence, que logra el mismo rendimiento, ha reducido la escala de parámetros a 2.4 mil millones, lo que equivale a un aumento de aproximadamente ### 86 veces en la densidad de conocimiento.
Basándose en estas tendencias, Liu Zhiyuan, profesor asociado de tenencia en el Departamento de Ciencias de la Computación de la Universidad de Tsinghua y científico jefe de Mianbi Intelligence, propuso recientemente una idea interesante: ### la era de los grandes modelos tiene su propia "Ley de Moore".
Específicamente, ### con el desarrollo coordinado de datos, poder computacional y algoritmos, la densidad de conocimiento de los grandes modelos continúa fortaleciéndose, duplicándose en promedio cada 8 meses.
Al aumentar la densidad de circuitos en los chips, se ha impulsado la evolución de los dispositivos informáticos con la misma potencia de cálculo, pasando de supercomputadoras que ocupaban varias habitaciones a teléfonos móviles que caben en el bolsillo. El desarrollo de los grandes modelos seguirá una regla similar. Liu Zhiyuan ha denominado a esta ley orientadora que propone como la "Ley de Mianbi".
Siguiendo esta tendencia, ### entrenar un modelo de cien mil millones de parámetros, las capacidades que posee, en 8 meses un modelo de 50 mil millones de parámetros podrá lograrlo, y después de otros 8 meses solo se necesitarán 25 mil millones de parámetros para hacerlo.
II. Divididos en múltiples frentes: la guerra de precios de código cerrado está en pleno apogeo, el código abierto forma un trípode entre China, EE.UU. y Europa
Actualmente, los jugadores que han entrado en la carrera por la reducción de tamaño de los grandes modelos están divididos en múltiples frentes.
OpenAI, Google y Anthropic han tomado el camino del código cerrado. Sus modelos insignia GPT-4, Claude 3.5 Sonnet y Gemini 1.5 Pro controlan el nivel de rendimiento más alto, con escalas de parámetros que alcanzan cientos de miles de millones e incluso billones.
Los modelos ligeros son versiones simplificadas de sus modelos insignia. Después del lanzamiento de OpenAI la semana pasada, GPT-4 mini se convirtió en la opción con mejor relación calidad-precio por debajo de 10B en el mercado, superando el rendimiento de Gemini Flash y Claude Haiku. Para consumidores, reemplaza a GPT-3.5 para uso gratuito de los usuarios, y para empresas, reduce drásticamente el precio de la API, haciendo que la adopción de la tecnología de grandes modelos sea más accesible.
Andriy Burkov, autor de "Machine Learning Engineering", infiere que la escala de parámetros de GPT-4 mini es de alrededor de 7B basándose en el precio. Li Dahai, CEO de Mianbi Intelligence, especula que GPT-4 mini es un modelo "MoE ancho" con un gran número de expertos, en lugar de un modelo para dispositivos, posicionándose como un modelo en la nube de alta relación calidad-precio para reducir enormemente el costo de implementación industrial de los grandes modelos.