LSTM fue considerado "el logro de IA más valioso comercialmente" antes de la llegada de ChatGPT.
Sin embargo, Schmidhuber quiere que la gente sepa más sobre los años 1990-1991, que él compara con el "año milagroso" en física (1905). Según él, durante ese período, sentó las bases de la "inteligencia artificial generativa" al introducir las GAN (Redes Generativas Adversarias), los Transformers lineales no normalizados y los principios de pre-entrenamiento auto-supervisado. Esto tuvo un amplio impacto en la "G", "P" y "T" de ChatGPT.
Por lo tanto, incluso antes de que el trío del aprendizaje profundo (Geoffrey Hinton, Yoshua Bengio y Yann LeCun) ganara el Premio Turing, Schmidhuber ya había sido apodado el "padre de la inteligencia artificial madura" por The New York Times. Elon Musk también lo elogió en X, diciendo: "Schmidhuber inventó todo".
En 2013, Schmidhuber recibió el "Premio Helmholtz" de la Sociedad Internacional de Redes Neuronales (INNS) en reconocimiento a sus importantes contribuciones al aprendizaje automático. En 2016, recibió el Premio Pionero de Redes Neuronales del IEEE. Actualmente es Director Científico de IDSIA, un laboratorio de IA en Suiza, y jefe del programa de IA en la Universidad de Ciencia y Tecnología Rey Abdullah (KAUST) en Arabia Saudita. También está involucrado en las operaciones de varias empresas de IA.
Esto plantea una nueva pregunta: ¿por qué aún no ha ganado un Premio Turing?
El profesor Zhou Zhihua, Decano de la Escuela de Inteligencia Artificial de la Universidad de Nanjing, ofrece una perspectiva notable: "En términos de contribuciones al aprendizaje profundo, Hinton ocupa sin duda el primer lugar, con LeCun y Schmidhuber haciendo contribuciones significativas. ### Pero HLB siempre están agrupados. Ganar premios requiere nominaciones y votos, y las relaciones personales también son importantes. Sin embargo, no importa; con una contribución a nivel de libro de texto como LSTM, puede permanecer tranquilo".
Durante la conversación en profundidad de dos días con "Jiazi Guangnian", Schmidhuber, con su característica boina negra elegante y su fluido inglés con acento alemán, se presentó como un erudito con humor y accesibilidad. Sin embargo, bajo este exterior amable se esconde un espíritu indomable, ansioso por establecer la integridad científica en el campo de la investigación de IA en rápido desarrollo.
Al discutir las contribuciones pasadas por alto de él mismo y sus colegas académicos, especialmente los logros revolucionarios de los pequeños laboratorios académicos europeos antes que los gigantes tecnológicos, las palabras de Schmidhuber revelan una urgencia por corregir el registro histórico.
En los últimos años, ha participado en múltiples debates públicos con LeCun, Ian Goodfellow y otros en redes sociales y en eventos de oratoria, utilizando argumentos bien preparados y revisados por pares para acusar a otros de "recalentar" su trabajo publicado anteriormente, argumentando que el reconocimiento debido a los primeros pioneros en el campo del aprendizaje profundo no debería disminuirse.
Su franqueza naturalmente lleva a controversias sobre su personalidad. Sin embargo, la perspectiva de Schmidhuber, arraigada en Europa y la academia, proporciona al público valiosos puntos de vista diversos más allá de las narrativas potencialmente engañosas de Silicon Valley. Además, no solo persiste en hablar por sí mismo, sino que también elogia incansablemente a sus destacados estudiantes y a aquellos contribuyentes subestimados en el desarrollo de la IA, esforzándose por darles el crédito que merecen.
Con respecto al debate sobre quién debería ser llamado el "padre de la inteligencia artificial", Schmidhuber señala que ### construir IA requiere una civilización entera. Y el concepto de IA moderna ya había surgido, impulsado por principios matemáticos y algorítmicos, décadas o incluso siglos antes de que se acuñara el término "inteligencia artificial" en la década de 1950.
En cuanto a los comentarios negativos dirigidos a él personalmente, Schmidhuber parece más despreocupado. A menudo cita al famoso cantante Elvis Presley: "La verdad es como el sol. Puedes ocultarla por un tiempo, pero no se irá".
En este artículo, "Jiazi Guangnian" entrevista a Jürgen Schmidhuber, discutiendo los orígenes de la inteligencia artificial mucho antes de 1956, su propia investigación y opiniones sobre los "tres gigantes del aprendizaje profundo", y mirando hacia el futuro. Él cree que puede surgir una civilización de máquinas capaz de autorreplicarse y automejorarse. En el camino hacia la AGI, cree que además de las grandes empresas, alguien sin mucha financiación también puede aportar innovación integral a la investigación de IA.
1. Una arquitectura mejor que Transformer
Jiazi Guangnian: Comencemos con la historia de la inteligencia artificial. Tienes un profundo conocimiento del desarrollo de la IA. ¿Qué aspectos de la historia de la IA crees que necesitan aclaración?
Schmidhuber: Ciertamente hay muchos. El comienzo de la inteligencia artificial fue mucho antes que la Conferencia de Dartmouth en 1956, cuando apareció por primera vez el término "inteligencia artificial". De hecho, ya en 1914, Leonardo Torres y Quevedo habían diseñado un dispositivo automatizado capaz de jugar al ajedrez. En ese momento, el ajedrez se consideraba el dominio exclusivo de los seres inteligentes. En cuanto a la teoría de la inteligencia artificial, se puede remontar al trabajo de Kurt Gödel de 1931-1934, cuando estableció las limitaciones fundamentales del cálculo de IA.
Algunas personas dicen que las redes neuronales artificiales son algo nuevo que surgió en la década de 1950, pero eso no es cierto. Las semillas de la idea se plantaron hace más de 200 años. Gauss y Legendre, dos genios adolescentes, propusieron conceptos alrededor de 1800 que ahora reconocemos como redes neuronales lineales, aunque en ese momento lo llamaron "método de mínimos cuadrados". Tenían datos de entrenamiento que consistían en entradas y salidas deseadas, y ajustaban pesos para minimizar los errores del conjunto de entrenamiento con el fin de generalizar a datos de prueba no vistos, lo cual es esencialmente una red neuronal lineal.
Esto es lo que ahora llamamos "aprendizaje superficial", por lo que algunas personas piensan que el "aprendizaje profundo" más poderoso y novedoso es una innovación del siglo XXI. Pero ese no es el caso. En 1965, en Ucrania, Alexey Ivakhnenko y Valentin Lapa fueron pioneros en la primera red multicapa profunda aprendible. Por ejemplo, el artículo de Ivakhnenko de 1970 detallaba una red de aprendizaje profundo de ocho capas. Desafortunadamente, cuando otros más tarde volvieron a publicar las mismas ideas y conceptos, no citaron a los inventores ucranianos. Hay muchos casos de plagio intencional o no intencional en nuestro campo.
Jiazi Guangnian: Tú mismo has jugado un papel importante en la historia de la inteligencia artificial. ¿Puedes hablarnos de ese año milagroso de 1991? ¿Qué contribuciones hizo tu investigación a la industria de la IA en ese momento?
Schmidhuber: 1990 a 1991 fue nuestro tiempo de crear milagros, de lo cual estoy muy orgulloso. En solo un año, nutrimos muchas ideas centrales que apoyan la IA generativa actual en nuestro laboratorio de la Universidad Técnica de Munich.
Comencemos con ChatGPT. El GPT en su nombre significa Generative Pre-trained Transformer. Primero, hablemos de la G en GPT y la IA generativa. Sus raíces se remontan a ### el concepto de redes generativas adversarias que propuse por primera vez en 1990. En ese momento, lo llamé "curiosidad artificial", donde dos redes neuronales jugando una contra la otra (un generador con unidades probabilísticas adaptativas y un predictor influenciado por la salida del generador) usan descenso de gradiente para maximizar las pérdidas del otro en el juego. Sin embargo, ### en un juego minimax, el generador intenta maximizar lo que el predictor está tratando de minimizar. En otras palabras, está tratando de "engañar" al oponente generando contenido impredecible para desafiar los límites del predictor. Esta tecnología se utilizó ampliamente más tarde en el campo del Deepfake.
En cuanto a P, la parte de "pre-entrenamiento" de GPT, también publiqué sobre esto en 1991. Descubrí que el pre-entrenamiento no supervisado o auto-supervisado puede comprimir en gran medida las secuencias, facilitando así el aprendizaje profundo posterior de secuencias largas (como textos muy largos).
T significa Transformer. Algunas personas piensan que nació en Google en 2017, pero en realidad, ya había introducido una variante de este concepto en 1991, llamada "controlador de peso rápido", una variante de la cual ahora se conoce como "Transformer lineal no normalizado". Este Transformer temprano era extremadamente eficiente, requiriendo solo 100 veces el cálculo para 100 veces la entrada, en lugar de 10,000 veces como los Transformers actuales.
Jiazi Guangnian: Muchas personas, incluidos los autores de Transformer, han declarado que necesitamos una mejor arquitectura que Transformer. Ciertamente no es perfecta, entonces ¿cómo crees que debería ser la arquitectura de próxima generación?
Schmidhuber: Ahora, mejorar la eficiencia del Transformer es un tema candente, y mi diseño de 1991 es sin duda un excelente punto de partida.
Para las discusiones sobre la próxima generación de LLMs, podemos volver a la etapa inicial. En ese momento, tanto Google como Facebook estaban usando nuestras redes de Memoria a Corto y Largo Plazo, o Redes Neuronales Recurrentes LSTM, que se remontan a la tesis de 1991 de mi destacado estudiante Sepp Hochreiter. Esta tesis no solo describía experimentos con el mencionado pre-entrenamiento (la P en GPT) sino que también introdujo conexiones residuales, que son componentes centrales de LSTM, permitiendo un aprendizaje muy profundo y el procesamiento de secuencias muy largas. ### Propuse el nombre LSTM en 1995, pero el nombre no es importante, lo importante es la matemática detrás. No fue hasta finales de la década de 2010 que LSTM fue reemplazado por Transformer, porque Transformer es más fácil de paralelizar, lo cual es clave para beneficiarse del hardware de redes neuronales masivamente paralelo de hoy (como las GPU de NVIDIA).
Jiazi Guangnian: ¿Pueden las RNN resolver tareas que los Transformers no pueden?
Schmidhuber: En principio, debería ser más poderosa. Por ejemplo, la verificación de paridad: dada una cadena de bits como 01100, 101, o 1000010101110, ¿es el número de 1s impar o par? Parece una tarea simple, pero los Transformers no pueden generalizarla. Sin embargo, incluso las RNN simples pueden resolver esta tarea.
Recientemente, el equipo de Hochreiter desarrolló una impresionante extensión de LSTM llamada xLSTM, que tiene escalabilidad lineal y supera a los Transformers en varios puntos de referencia de lenguaje. Su comprensión superior de la semántica del texto