La batalla de las arquitecturas de grandes modelos: CoE vs MoE La competencia entre las arquitecturas de Conjunto de Expertos (CoE) y Mezcla de Expertos (MoE)

Los grandes modelos de lenguaje han formado una cadena de producción única

Cuando la violencia ya no produce milagros, los grandes modelos se ven atrapados en la maldición de la tecnología

El aumento absoluto de parámetros quizás no sea la única solución para la implementación de grandes modelos. Esta frase se está convirtiendo gradualmente en un consenso en la industria de los grandes modelos.

Entre ellos, el primer cuello de botella en el camino hacia parámetros más grandes es el mayor ganador de este banquete: NVIDIA.

Recientemente, un informe de investigación de Meta mostró que: su modelo más reciente Llama 3 con 405 mil millones de parámetros, al entrenarse en un clúster de 16,384 GPUs NVIDIA H100, experimentó 419 incidentes inesperados en 54 días, con una falla ocurriendo en promedio cada tres horas durante el entrenamiento. Mientras tanto, cada falla de una sola GPU interrumpiría todo el proceso de entrenamiento, lo que lleva a reiniciar el entrenamiento.

En términos simples, la cantidad actual de parámetros de los grandes modelos ya se acerca al límite que el hardware puede soportar. Incluso con un suministro interminable de GPUs, ya no se puede resolver el problema de potencia computacional en el entrenamiento de grandes modelos. Si continuamos corriendo por el camino de expandir parámetros, el proceso de entrenamiento se convertirá en un reinicio infinito como Sísifo empujando la roca.

El hardware ha aumentado la dificultad de expansión de los grandes modelos. En escenarios específicos, el grado de inteligencia ya no es proporcional a la cantidad de parámetros, lo que pone un gran signo de interrogación desde una perspectiva práctica sobre este placer violento.

Los escenarios de los grandes modelos se están volviendo cada vez más complejos, especializados y fragmentados. Querer un modelo que pueda responder preguntas de conocimiento general y resolver problemas en campos profesionales es casi una fantasía.

Una dimensión de comparación técnica favorita utilizada por un fabricante nacional de grandes modelos es: comparar la apreciación de poesía y chistes tontos con GPT-4. Casi sin excepción, independientemente del tamaño del modelo o si es un modelo de código abierto empaquetado, los grandes modelos nacionales superan al "número uno mundial". Incluso en preguntas básicas de conocimiento literario como la relación entre Lu Xun y Zhou Shuren, el mejor gran modelo no puede superar a un motor de búsqueda tradicional.

Volviendo a las aplicaciones prácticas, el triángulo imposible de la comercialización arroja un balde de agua fría sobre los creyentes de los parámetros.

En aplicaciones reales, además del grado de inteligencia del modelo, los gerentes de producto también deben considerar dos factores principales: velocidad y costo. Por lo general, un tiempo de respuesta de menos de 1 segundo en preguntas y respuestas, una precisión del 99% y un modelo comercial que pueda equilibrar los costos serían condiciones necesarias para la supervivencia de un gran modelo.

Sin embargo, usar el enfoque de grandes parámetros para aumentar la inteligencia a menudo significa que cuanto mayor es el grado de inteligencia, más lenta es la velocidad de respuesta del producto y mayor es el costo, y viceversa.

Si permitimos que los parámetros se expandan sin límites, la IA inevitablemente se convertirá en una guerra de capital, pero el costo de la expansión superará con creces cualquier competencia comercial comparable en la historia... Para los jugadores que ya han pisado el acelerador, la única forma de no perder demasiado es aumentar las apuestas a un nivel que los competidores no puedan igualar.

Así, frente al techo que se vislumbra, el tema de la industria comienza a cambiar: si no existe un modelo universal y la violencia no produce milagros, ¿hacia dónde debe ir la industria?

El momento del Modelo T para los grandes modelos: ¿CoE o MoE?

Cuando se bloquea la viabilidad de que un gran modelo complete tareas generales + profesionales simultáneamente, la división del trabajo conjunto de múltiples modelos se convierte en el tema principal de la segunda etapa de la industria.

En 1913, Ford Company introdujo creativamente el concepto de línea de matanza en la industria automotriz, desarrollando la primera línea de montaje del mundo. La producción de automóviles pasó del ensamblaje manual de maestros artesanos al proceso industrial, reduciendo el tiempo de producción de un automóvil en casi 60 veces y el precio de venta en más de la mitad. La fabricación de automóviles entró así en una nueva era.

El mismo momento del Modelo T está ocurriendo en la industria de los grandes modelos.

Tomando el escenario de traducción más típico como ejemplo, una buena traducción debe alcanzar tres niveles: fidelidad, expresividad y elegancia. Pero en el mundo de los grandes modelos, los modelos tradicionales de traducción solo pueden lograr la fidelidad, mientras que la expresividad y la elegancia dependen de los modelos de escritura.

Sin embargo, sobre cómo dividir el trabajo entre múltiples modelos, la industria se ha dividido en dos campos claramente definidos: la alianza vertical y la alianza horizontal.

El enfoque técnico de la alianza vertical es MoE.

El llamado MoE (Mixture-of-Experts) se traduce al chino como modelo de expertos mixtos, que combina modelos expertos de múltiples campos específicos en un supermodelo. Ya en 2022, Google propuso el gran modelo MoE Switch Transformer, que con sus 1,571 mil millones de parámetros, mostró una mayor eficiencia de muestras en tareas de pre-entrenamiento (más preciso y sin un aumento significativo en el costo computacional) que el modelo T5-XXL (11 mil millones).

Además, el conocido hacker estadounidense George Hotz y el creador de PyTorch Soumith Chintala también declararon que GPT-4 está compuesto por 8 modelos MoE de 220 mil millones de parámetros, formando un gran modelo de 1,760 mil millones de parámetros, que no es estrictamente "un" modelo de un billón.

Sin embargo, este enfoque de 8 en 1 también ha llevado a que el diseño y cada actualización iterativa de MoE requiera enormes recursos. Es similar a escalar montañas diariamente: la dificultad de escalar el Monte Everest de 8,848 metros de altura está lejos de ser la suma del esfuerzo de escalar 8 veces la montaña Yandang de 1,108 metros de altura. Por lo tanto, los que pueden participar suelen ser los líderes tecnológicos de IA con ventajas absolutas en las 8 disciplinas.

Así, a medida que MoE se convierte gradualmente en un juego de oligopolios, un nuevo enfoque técnico sube al escenario: el CoE de la alianza horizontal.

CoE (Collaboration-of-Experts), es decir, el modelo de colaboración de expertos. En términos simples, una entrada se conecta simultáneamente a múltiples modelos, y la entrada agregará una etapa de reconocimiento de intención antes del análisis del modelo, y luego realizará la asignación de tareas, decidiendo qué modelo entra en acción o qué modelos trabajan juntos. En comparación con MoE, la mayor ventaja de CoE es que los diversos modelos expertos pueden colaborar entre sí, pero no existe una relación vinculante.

En comparación con MoE, CoE tiene más colaboración entre cada modelo experto, una división del trabajo más precisa, y es más flexible y más especializado. Este enfoque, en comparación con MoE, tiene mayor eficiencia y menor costo de uso de API e tokens.

Entonces, ¿qué enfoque prevalecerá, MoE o CoE?

Otro enfoque para resolver el problema: ¿Qué determina la experiencia de inteligencia del usuario?

Cuando Zhou Hongyi se transformó en el gurú de la IA con su característica vestimenta roja, dentro de 360, el debate sobre cómo seguir el camino de CoE o MoE también se ha repetido en el último año y medio.

Si se sigue el camino de MoE, la acumulación tecnológica de 360 durante muchos años es suficiente para librar esta batalla.

Mientras que seguir el camino de CoE significa compartir el pastel con más fabricantes de grandes modelos.

"Tres zapateros remendones valen por un estratega" inspiró a Liang Zhihui, vicepresidente del Grupo 360, a apostar por CoE:

Una empresa, incluso si logra ser "competente en 8 disciplinas" como OpenAI, aún tendrá inevitablemente puntos débiles. Pero si se combinan las capacidades de las empresas de grandes modelos más excelentes a través de la capacidad CoE, significa la realización de complementar ventajas y lograr una verdadera competencia en 18 disciplinas.

Los resultados de las pruebas muestran que la versión beta del asistente de IA basado en la capacidad CoE AI de 360, después de incorporar las fortalezas de 16 de los mejores grandes modelos nacionales, incluido el cerebro inteligente de 360, ya ha superado a GPT-4 en 11 indicadores de prueba de capacidad individual.

Al mismo tiempo, incluso si se "subcontrata" la capacidad del modelo subyacente, 360 aún puede encontrar su propio posicionamiento único en la ola de CoE.

Desde la perspectiva del producto, el producto CoE AI Assistant de 360 se puede dividir en dos partes: la acumulación de corpus y la tecnología algorítmica dependen principalmente de la integración de 16 grandes modelos nacionales, incluido el cerebro inteligente de 360, similar a fuerzas especiales con diferentes divisiones de trabajo; mientras que 360 actúa como el comandante, utilizando el modelo de reconocimiento de intención para lograr una comprensión más precisa de la intención del usuario; a través de modelos de descomposición y programación de tareas, logra la programación inteligente de numerosas redes de modelos expertos (100+ LLM), centros de conocimiento a escala de cientos de miles de millones y más de 200 herramientas de terceros, logrando así una mayor flexibilidad y eficiencia que MoE.