Divisiones de dirección de los grandes modelos de IA
Actualmente, la mayoría de las empresas utilizan modelos de lenguaje generales de IA, entrenándolos con datos de su industria para crear aplicaciones diferenciadas. Sin embargo, esto podría ser un atajo. Mike Knoop, cofundador de Zapier, cree que expandir los modelos de lenguaje solo impulsa el desarrollo de la "memoria" como forma de inteligencia, lo cual es diferente de la inteligencia real. No puede entender los escenarios y necesidades de las empresas, por lo que no puede aprovechar plenamente el valor de la IA.
Además, la curva de aumento de la potencia de cálculo de GPU y la mejora de las capacidades de los modelos de lenguaje puede tener rendimientos marginales decrecientes. Una vez que se agoten los datos públicos simples, será una ilusión tratar de adelantar en el campo de la IA confiando solo en modelos de lenguaje generales.
Esto es aún más desfavorable para las empresas. En la búsqueda de nuevas tecnologías, las empresas a menudo invierten las prioridades, comenzando con la intención de resolver problemas específicos pero terminando en una carrera de conceptos, olvidando los problemas fundamentales.
La solución a este problema está en manos de las empresas de IA. Sarah Tavel, socia de Benchmark, cree que la mejor dirección de desarrollo es emprender con grandes modelos basados en las necesidades específicas de los clientes. Alex Wang, cofundador de Scale AI, cree que los datos son el cuello de botella para el rendimiento de los modelos de IA, no los algoritmos o la computación. Los datos provienen finalmente de múltiples industrias verticales, lo que significa que las empresas de IA deberían profundizar en los campos industriales y desarrollar grandes modelos industriales que se ajusten a las necesidades empresariales.
Este proceso tiene dos puntos clave:
-
Problema de datos: Las empresas de IA necesitan "entender" a los usuarios y la industria. Muchas empresas tienen grandes cantidades de datos no utilizados.
-
Problema de gestión e iteración: Debido a la diversidad de industrias y escenarios, actualmente es difícil que una sola empresa construya grandes modelos para todos los campos.
Tanto Fourth Paradigm como Mike Knoop de Zapier apuntan a la automatización como clave. En términos de tecnología, AutoML, síntesis de programas y búsqueda de arquitectura neuronal implican procesos de automatización y optimización para reducir la intervención humana y mejorar la eficiencia y efectividad. Mike Knoop cree que la exploración de AGI debe basarse en la síntesis de programas y la búsqueda de arquitectura neuronal, mientras que Dai Wenyuan, fundador de Fourth Paradigm, menciona que la tecnología base para construir innumerables grandes modelos industriales es AutoML.
Dai Wenyuan llama a AutoML "un arte del fracaso", que puede desempeñar un mayor valor porque Fourth Paradigm ha experimentado numerosos escenarios y sabe cómo hacer que los datos y los modelos se acerquen a las necesidades de escenarios específicos. El éxito se convierte en resultados, el fracaso en nutrientes, acelerando la iteración basada en la automatización. Como dice Alex Wang: "El aprendizaje automático es un marco de basura entra, basura sale". Pero con datos industriales de alta calidad y la capacidad de corregir errores continuamente, finalmente se logrará una implementación confiable de grandes modelos industriales.
Creación de diferentes modelos de IA: ideas, enfoques y perspectivas
Algunas empresas centradas en grandes modelos generales, representadas por OpenAI, tienden a desarrollarse horizontalmente, con el gran modelo como todo. En términos de modelo de negocio, simplemente venden capacidades de grandes modelos. En comparación, empresas como Fourth Paradigm y Glean toman un camino diferente, utilizando tecnología de IA para ayudar a las empresas a tomar decisiones en ciertos aspectos para mejorar la eficacia general del trabajo. Sus modelos de negocio también son diferentes.
Glean proporciona una plataforma de búsqueda empresarial y gestión del conocimiento basada en tecnología de IA, integrando funciones de múltiples aplicaciones de terceros para convertirse en parte del flujo de trabajo. También puede ayudar a las empresas a entrenar modelos de IA exclusivos con sus propios datos, basados en el "modelo de conocimiento confiable" desarrollado independientemente por Glean.
Fourth Paradigm profundiza más en la gestión predictiva de problemas comerciales centrales de la industria. Su plataforma de grandes modelos industriales, AIOS 5.0, construye grandes modelos base industriales basados en datos multimodales de diversos escenarios industriales. A nivel de capacidad, se centra en "Predict the Next X", donde X representa la lógica y los resultados de las principales industrias. A nivel de uso, proporciona herramientas de modelado de bajo umbral, un sistema de servicios de innovación científica y otras capacidades para lograr la construcción, implementación y gestión de servicios de grandes modelos industriales de extremo a extremo.
Este es un caso típico del desarrollo de empresas chinas de IA basado en antecedentes industriales. Dai Wenyuan cree que China tiene una gran ventaja en escenarios y datos, y después de cubrir suficientes escenarios, la combinación de estos modelos también podría lograr AGI. En comparación, muchos modelos industriales populares siguen siendo modelos de lenguaje industrial grandes pero no precisos. Después de dividirlos en escenarios más precisos, aunque superficialmente se necesita establecer muchos grandes modelos, la carga de datos para cada escenario preciso es limitada, y con la ayuda de tecnología automatizada, se logra el desarrollo de AGI a nivel de aplicación por un camino diferente.
Mike Knoop cree que AGI ha encontrado obstáculos después de un rápido avance porque depende demasiado de los grandes modelos de lenguaje, definiendo AGI como un sistema capaz de completar la mayoría de las tareas. Pero AGI debería centrarse más en adquirir nuevas capacidades de manera eficiente y resolver problemas abiertos en diversos escenarios.
Jensen Huang, CEO de NVIDIA, mencionó que con el desarrollo de grandes modelos, las computadoras pasan de estar impulsadas por instrucciones a estar impulsadas por intenciones, "las futuras aplicaciones harán y ejecutarán de manera similar a cómo hacemos las cosas, formando equipos de expertos, usando herramientas, razonando, planificando y ejecutando nuestras tareas". Esta lógica en sí misma implica universalidad, los grandes modelos están entrando en el mundo físico, porque las decisiones en el mundo físico también son trazables.
Un ejemplo similar es Palantir, originalmente una empresa de big data para el gobierno, que ayuda en la toma de decisiones basada en análisis de datos y modelado de simulación. La tecnología de IA generativa ha transformado su forma de procesar datos, logrando avances significativos en automatización y toma de decisiones basada en datos, acelerando el desarrollo de su negocio de IA para empresas. Fourth Paradigm, por su parte, establece grandes modelos industriales en cada escenario determinista, ayudando a las empresas a dominar sus propias aplicaciones y tomar decisiones efectivas.