No es que los grandes modelos sean inasequibles, sino que los pequeños modelos tienen mejor relación calidad-precio
En el vasto mundo de la IA, los pequeños modelos siempre han tenido su propia leyenda.
Mirando hacia afuera, el sorprendente Mistral 7B del año pasado fue aclamado como "el mejor modelo de 7B" tan pronto como se lanzó, superando a modelos de 13B parámetros como Llama 2 en múltiples evaluaciones de referencia, y superando a Llama 34B en inferencia, matemáticas y generación de código.
Este año, Microsoft también lanzó como código abierto su modelo más potente de pequeños parámetros, phi-3-mini, que a pesar de tener solo 3.8B de parámetros, sus resultados de evaluación de rendimiento superan con creces el nivel de modelos de parámetros similares, compitiendo con modelos más grandes como GPT-3.5 y Claude-3 Sonnet.
Mirando hacia adentro, Mianbi Intelligence lanzó a principios de febrero el modelo de lenguaje de lado del cliente MiniCPM con solo 2B de parámetros, logrando un rendimiento más fuerte con un tamaño más pequeño, superando al popular modelo francés Mistral-7B y siendo apodado el "pequeño cañón".
Hace poco, MiniCPM-Llama3-V2.5, con solo 8B de parámetros, también superó a modelos más grandes como GPT-4V y Gemini Pro en rendimiento multimodal integral y capacidad de OCR, lo que llevó a que fuera plagiado por el equipo de IA de la Universidad de Stanford.
Hasta la semana pasada, OpenAI lanzó sorpresivamente GPT-4o mini, descrito como "el modelo de pequeños parámetros más potente y con mejor relación calidad-precio", devolviendo la atención de todos a los pequeños modelos.
Desde que OpenAI arrastró al mundo entero a la imaginación de la IA generativa, el desarrollo nacional e internacional siempre ha girado en torno a una lógica: permanecer en la mesa a través de la comercialización.
Por lo tanto, entre todas las opiniones públicas, lo más llamativo es que OpenAI, que ha reducido sus precios, parece que también va a entrar en la guerra de precios.
Mucha gente probablemente no tenga una idea clara del precio de GPT-4o mini. GPT-4o mini cuesta 15 centavos por cada millón de tokens de entrada y 60 centavos por cada millón de tokens de salida, más del 60% más barato que GPT-3.5 Turbo.
Es decir, generar un libro de 2500 páginas con GPT-4o mini solo costaría 60 centavos.
El CEO de OpenAI, Sam Altman, también reflexionó en X que, en comparación con GPT-4o mini, el modelo más potente de hace dos años no solo tenía una enorme brecha de rendimiento, sino que también costaba 100 veces más de usar.
Mientras la guerra de precios de los grandes modelos se intensifica, algunos pequeños modelos de código abierto eficientes y económicos también son más propensos a atraer la atención del mercado, después de todo, no es que los grandes modelos sean inasequibles, sino que los pequeños modelos tienen mejor relación calidad-precio.
Por un lado, en una situación en la que las GPU globales se están agotando e incluso escaseando, los pequeños modelos de código abierto con costos de entrenamiento e implementación más bajos también son suficientes para ganar gradualmente ventaja.
Por ejemplo, MiniCPM, lanzado por Mianbi Intelligence, puede lograr una caída drástica en los costos de inferencia gracias a sus parámetros relativamente pequeños, e incluso puede realizar inferencias en CPU, requiriendo solo una máquina para el entrenamiento continuo de parámetros y una tarjeta gráfica para el ajuste fino de parámetros, al tiempo que tiene espacio para mejoras continuas de costos.
Si eres un desarrollador maduro, incluso puedes entrenar un modelo vertical en el campo legal construyendo tu propio pequeño modelo, cuyo costo de inferencia puede ser solo una milésima parte del costo de ajustar un modelo grande.
La aplicación de algunos "pequeños modelos" del lado del cliente ha permitido que muchos fabricantes vean el amanecer de la rentabilidad por adelantado. Por ejemplo, Mianbi Intelligence ayudó al Tribunal Popular Intermedio de Shenzhen a poner en funcionamiento un sistema de juicio asistido por inteligencia artificial, demostrando al mercado el valor de la tecnología.
Por supuesto, para ser más precisos, el cambio que comenzaremos a ver no es una transición de grandes modelos a pequeños modelos, sino una transición de modelos de una sola categoría a una combinación de modelos, y la elección del modelo adecuado depende de las necesidades específicas de la organización, la complejidad de la tarea y los recursos disponibles.
Por otro lado, los pequeños modelos son más fáciles de implementar e integrar en dispositivos móviles, sistemas embebidos o entornos de baja potencia.
Los pequeños modelos tienen una escala de parámetros relativamente pequeña y, en comparación con los modelos grandes, tienen menores demandas de recursos computacionales (como potencia de cálculo de IA, memoria, etc.), lo que les permite funcionar de manera más fluida en dispositivos del lado del cliente con recursos limitados. Además, los dispositivos del lado del cliente generalmente tienen requisitos más extremos para problemas como el consumo de energía y la generación de calor, y los pequeños modelos especialmente diseñados pueden adaptarse mejor a las limitaciones de los dispositivos del lado del cliente.
El CEO de Honor, Zhao Ming, dijo una vez que debido a los problemas de potencia de cálculo de IA en el lado del cliente, los parámetros pueden estar entre 1B y 10B, mientras que la capacidad de computación en la nube de los grandes modelos de red puede alcanzar los 10-100 mil millones, o incluso más, y esta capacidad es la diferencia entre los dos.
El teléfono móvil está en un espacio muy limitado, ¿verdad? Soporta 7 mil millones en un entorno de batería limitada, disipación de calor limitada y almacenamiento limitado, solo imagina cuántas restricciones hay, definitivamente es lo más difícil.
También hemos revelado el héroe detrás de escena responsable de operar la inteligencia de Apple, donde un pequeño modelo de 3B ajustado finamente se utiliza para tareas como resumen y pulido, y con el apoyo de adaptadores, su capacidad es superior a Gemma-7B y es adecuado para funcionar en terminales móviles.
Así que vemos que Andrej Karpathy, ex genio de OpenAI, también propuso recientemente un juicio de que la competencia por el tamaño del modelo se "involucionará al revés", no haciéndose cada vez más grande, sino compitiendo por quién es más pequeño y flexible.
¿Cómo pueden los pequeños modelos ganar a los grandes?
La predicción de Andrej Karpathy no es infundada.
En esta era centrada en los datos, los modelos se están volviendo rápidamente más grandes y complejos, y los supermodelos entrenados con enormes cantidades de datos (como GPT-4) se utilizan en su mayoría para memorizar una gran cantidad de detalles irrelevantes, es decir, para memorizar material.
Sin embargo, los modelos ajustados finamente incluso "ganan a los grandes siendo pequeños" en tareas específicas, con un nivel de utilidad comparable a muchos "supermodelos".
El CEO de Hugging Face, Clem Delangue, también sugirió una vez que hasta el 99% de los casos de uso se pueden resolver utilizando pequeños modelos, y predijo que 2024 será el año de los pequeños modelos de lenguaje.
Antes de examinar las razones, necesitamos explicar algunos conocimientos.
En 2020, OpenAI propuso una famosa ley en un artículo: la ley de escalado, que se refiere a que a medida que aumenta el tamaño del modelo, su rendimiento también aumenta. Con el lanzamiento de modelos como GPT-4, las ventajas de la ley de escalado se han vuelto cada vez más evidentes.
Los investigadores e ingenieros en el campo de la IA creen firmemente que aumentar el número de parámetros del modelo puede mejorar aún más la capacidad de aprendizaje y generalización del modelo. Así, hemos sido testigos de cómo la escala del modelo ha saltado de decenas de miles de millones de parámetros a cientos de miles de millones, e incluso se está escalando hacia modelos de billones de parámetros.
En el mundo de la IA, la escala del modelo no es el único estándar para medir su inteligencia.
Por el contrario, un pequeño modelo bien diseñado, a través de la optimización de algoritmos, la mejora de la calidad de los datos y la adopción de tecnologías de compresión avanzadas, a menudo puede mostrar un rendimiento comparable o incluso superior al de los grandes modelos en tareas específicas.
Esta estrategia de ganar a los grandes siendo pequeño se está convirtiendo en una nueva tendencia en el campo de la IA. Entre ellas, mejorar la calidad de los datos es una de las formas en que los pequeños modelos ganan a los grandes.
Satish Jayanthi, director de tecnología y cofundador de Coalesce, describió una vez el efecto de los datos en los modelos de esta manera:
Si hubiera LLM en el siglo XVII y le preguntáramos a ChatGPT si la Tierra es redonda o plana, respondería que la Tierra es plana porque los datos que le proporcionamos le hicieron creer que eso era un hecho. Los datos que proporcionamos a LLM y la forma en que lo entrenamos afectarán directamente su salida.
Para producir resultados de alta calidad, los grandes modelos de lenguaje necesitan ser entrenados con datos de alta calidad y específicos para temas y campos particulares. Al igual que los estudiantes necesitan libros de texto de calidad para aprender, los LLM también necesitan fuentes de datos de calidad.