Pionnier de l'IA générative conversationnelle Schmidhuber : réflexions après n'avoir pas reçu le prix Turing

La vérité est comme la lumière du soleil, elle peut être temporairement obscurcie par les nuages, mais finira par percer l'obscurité et briller de mille feux.

Voici la traduction en français :

Le LSTM était considéré comme "la réalisation d'IA la plus précieuse commercialement" avant l'avènement de ChatGPT.

Cependant, Schmidhuber veut que les gens en sachent plus sur les années 1990-1991, qu'il compare à "l'année miracle" en physique (1905). Selon lui, durant cette période, il a posé les bases de "l'intelligence artificielle générative" en introduisant les GANs (Réseaux antagonistes génératifs), les Transformers linéaires non normalisés, et les principes de pré-entraînement auto-supervisé. Cela a eu un large impact sur le "G", le "P" et le "T" de ChatGPT.

Ainsi, même avant que le trio du deep learning (Geoffrey Hinton, Yoshua Bengio et Yann LeCun) ne remporte le prix Turing, Schmidhuber était déjà surnommé le "père de l'intelligence artificielle mature" par le New York Times. Elon Musk l'a également félicité sur X, déclarant : "Schmidhuber a tout inventé."

En 2013, Schmidhuber a reçu le "Prix Helmholtz" de l'International Neural Network Society (INNS) pour reconnaître ses contributions significatives à l'apprentissage automatique. En 2016, il a reçu le IEEE Neural Network Pioneer Award. Il est actuellement directeur scientifique de l'IDSIA, un laboratoire d'IA en Suisse, et dirige le programme d'IA à l'Université des Sciences et Technologies du Roi Abdullah (KAUST) en Arabie Saoudite. Il est également impliqué dans les opérations de plusieurs entreprises d'IA.

Cela soulève une nouvelle question : pourquoi n'a-t-il pas encore reçu de prix Turing ?

Le professeur Zhou Zhihua, doyen de l'École d'Intelligence Artificielle de l'Université de Nanjing, offre une perspective intéressante : "En termes de contributions au deep learning, Hinton est sans aucun doute le premier, avec LeCun et Schmidhuber faisant tous deux des contributions significatives. ### Mais HLB sont toujours regroupés ensemble. Gagner des prix nécessite des nominations et des votes, et les relations personnelles sont également importantes. Cependant, cela n'a pas d'importance ; avec une contribution de niveau manuel comme LSTM, il peut rester serein."

Au cours de la conversation approfondie de deux jours avec "Jiazi Guangnian", Schmidhuber, avec son emblématique béret noir élégant et son anglais fluide à l'accent allemand, s'est présenté comme un érudit à la fois plein d'humour et abordable. Cependant, sous cet extérieur aimable se cache un esprit indomptable, désireux d'établir l'intégrité scientifique dans le domaine en rapide développement de la recherche en IA.

Lorsqu'il discute des contributions négligées de lui-même et de ses collègues universitaires, en particulier les réalisations révolutionnaires des petits laboratoires universitaires européens avant les géants de la technologie, les paroles de Schmidhuber révèlent une urgence à corriger le récit historique.

Au cours des dernières années, il s'est engagé dans de multiples débats publics avec LeCun, Ian Goodfellow et d'autres sur les réseaux sociaux et lors d'événements de prise de parole, utilisant des arguments bien préparés et évalués par des pairs pour accuser les autres de "réchauffer" son travail publié antérieurement, arguant que la reconnaissance due aux pionniers du domaine du deep learning ne devrait pas être diminuée.

Son franc-parler conduit naturellement à des controverses sur sa personnalité. Cependant, la perspective de Schmidhuber, ancrée en Europe et dans le milieu universitaire, fournit effectivement au public des points de vue diversifiés précieux au-delà des récits potentiellement trompeurs de la Silicon Valley. De plus, il persiste non seulement à parler pour lui-même, mais félicite aussi inlassablement ses étudiants exceptionnels et ces contributeurs sous-estimés dans le développement de l'IA, s'efforçant de leur donner le crédit qui leur est dû.

Concernant le débat sur qui devrait être appelé le "père de l'intelligence artificielle", Schmidhuber souligne que ### la construction de l'IA nécessite une civilisation entière. Et le concept d'IA moderne avait déjà émergé, motivé par des principes mathématiques et algorithmiques, des décennies voire des siècles avant que le terme "intelligence artificielle" ne soit inventé dans les années 1950.

Quant aux commentaires négatifs dirigés contre lui personnellement, Schmidhuber semble plus désinvolte. Il cite souvent le célèbre chanteur Elvis Presley : "La vérité est comme le soleil. Vous pouvez la cacher pendant un moment, mais elle ne disparaîtra pas."

Dans cet article, "Jiazi Guangnian" interviewe Jürgen Schmidhuber, discutant des origines de l'intelligence artificielle bien avant 1956, de ses propres recherches et points de vue sur les "trois géants du deep learning", et regardant vers l'avenir. Il croit qu'une civilisation machine capable d'auto-réplication et d'auto-amélioration pourrait émerger. Sur le chemin vers l'AGI, il pense qu'en plus des grandes entreprises, quelqu'un sans beaucoup de financement peut également apporter une innovation globale à la recherche en IA.

1. Une meilleure architecture que le Transformer

Jiazi Guangnian : Commençons par l'histoire de l'intelligence artificielle. Vous avez une compréhension profonde du développement de l'IA. Quels aspects de l'histoire de l'IA pensez-vous qu'il faut clarifier ?

Schmidhuber : Il y en a certainement beaucoup. Le début de l'intelligence artificielle était bien antérieur à la Conférence de Dartmouth en 1956, lorsque le terme "intelligence artificielle" est apparu pour la première fois. En fait, dès 1914, Leonardo Torres et Quevedo avaient déjà conçu un dispositif automatisé capable de jouer aux échecs. À l'époque, les échecs étaient considérés comme le domaine exclusif des êtres intelligents. Quant à la théorie de l'intelligence artificielle, elle remonte aux travaux de Kurt Gödel de 1931-1934, lorsqu'il a établi les limitations fondamentales du calcul de l'IA.

Certains disent que les réseaux de neurones artificiels sont une nouveauté apparue dans les années 1950, mais ce n'est pas vrai. Les germes de l'idée ont été plantés il y a plus de 200 ans. Gauss et Legendre, deux adolescents génies, ont proposé des concepts vers 1800 que nous reconnaissons maintenant comme des réseaux de neurones linéaires, bien qu'ils l'aient appelé "méthode des moindres carrés" à l'époque. Ils avaient des données d'entraînement composées d'entrées et de sorties souhaitées, et ajustaient les poids pour minimiser les erreurs sur l'ensemble d'entraînement afin de généraliser à des données de test non vues, ce qui est essentiellement un réseau de neurones linéaire.

C'est ce que nous appelons maintenant "apprentissage peu profond", donc certains pensent que l'apprentissage "profond" plus puissant et novateur est une innovation du 21e siècle. Mais ce n'est pas le cas. En 1965, en Ukraine, Alexey Ivakhnenko et Valentin Lapa ont été les pionniers du premier réseau multicouche profond apprenable. Par exemple, l'article d'Ivakhnenko de 1970 détaillait un réseau d'apprentissage profond à huit couches. Malheureusement, lorsque d'autres ont republié plus tard les mêmes idées et concepts, ils n'ont pas cité les inventeurs ukrainiens. Il y a de nombreux cas de plagiat intentionnel ou non dans notre domaine.

Jiazi Guangnian : Vous avez vous-même joué un rôle important dans l'histoire de l'intelligence artificielle. Pouvez-vous nous parler de cette année miraculeuse de 1991 ? Quelles contributions vos recherches ont-elles apportées à l'industrie de l'IA à cette époque ?

Schmidhuber : 1990 à 1991 a été notre période de création de miracles, dont je suis très fier. En seulement un an, nous avons nourri de nombreuses idées fondamentales qui soutiennent l'IA générative d'aujourd'hui dans notre laboratoire de l'Université Technique de Munich.

Commençons par ChatGPT. Le GPT dans son nom signifie Generative Pre-trained Transformer. Parlons d'abord du G dans GPT et de l'IA générative. Ses racines remontent à ### le concept de réseaux antagonistes génératifs que j'ai proposé pour la première fois en 1990. À l'époque, je l'appelais "curiosité artificielle", où deux réseaux de neurones s'affrontant (un générateur avec des unités probabilistes adaptatives et un prédicteur influencé par la sortie du générateur) utilisent la descente de gradient pour maximiser les pertes de l'autre dans le jeu. Cependant, ### dans un jeu minimax, le générateur essaie de maximiser ce que le prédicteur essaie de minimiser. En d'autres termes, il essaie de "tromper" l'adversaire en générant du contenu imprévisible pour défier les limites du prédicteur. Cette technologie a été largement utilisée plus tard dans le domaine du Deepfake.

Quant au P, la partie "pré-entraînement" de GPT, j'ai également publié à ce sujet en 1991. J'ai découvert que le pré-entraînement non supervisé ou auto-supervisé peut grandement compresser les séquences, facilitant ainsi l'apprentissage profond en aval de longues séquences (comme de très longs textes).

T signifie Transformer. Certains pensent qu'il est né chez Google en 2017, mais en fait, j'avais déjà introduit une variante de ce concept en 1991, appelée "contrôleur de poids rapide", dont une variante est maintenant connue sous le nom de "Transformer linéaire non normalisé". Ce Transformer précoce était extrêmement efficace, ne nécessitant que 100 fois le calcul pour 100 fois l'entrée, plutôt que 10 000 fois comme les Transformers actuels.

Jiazi Guangnian : Beaucoup de gens, y compris les auteurs du Transformer, ont déclaré que nous avons besoin d'une meilleure architecture que le Transformer. Il n'est certainement pas parfait, alors à quoi pensez-vous que devrait ressembler l'architecture de la prochaine génération ?

Schmidhuber : Maintenant, l'amélioration de l'efficacité du Transformer est un sujet brûlant, et ma conception de 1991 est sans aucun doute un excellent point de départ.

Pour les discussions sur la prochaine génération de LLM, nous pouvons revenir à la phase initiale. À cette époque, Google et Facebook utilisaient tous deux nos réseaux de mémoire à long et court terme, ou LSTM Recurrent Neural Networks (RNNs), qui remontent à la thèse de 1991 de mon remarquable étudiant Sepp Hochreiter. Cette thèse décrivait non seulement des expériences avec le pré-entraînement mentionné précédemment (le P dans GPT) mais introduisait également des connexions résiduelles, qui sont des composants essentiels du LSTM, permettant un apprentissage très profond et le traitement de très longues séquences. ### J'ai proposé le nom LSTM en 1995, mais le nom n'est pas important, ce qui est important c'est les mathématiques derrière. Ce n'est que vers la fin des années 2010 que le LSTM a été remplacé par le Transformer, car le Transformer est plus facile à paralléliser, ce qui est essentiel pour bénéficier du matériel de réseau neuronal massivement parallèle d'aujourd'hui (comme les GPU de NVIDIA).

Jiazi Guangnian : Les RNN peuvent-ils résoudre des tâches que les Transformers ne peuvent pas ?

Schmidhuber : En principe, ils devraient être plus puissants. Par exemple, la vérification de parité : étant donné une chaîne de bits comme 01100, 101, ou 1000010101110, le nombre de 1 est-il impair ou pair ? Cela semble être une tâche simple, mais les Transformers ne peuvent pas la généraliser. Cependant, même de simples RNN peuvent résoudre cette tâche.

Récemment, l'équipe de Hochreiter a développé une extension impressionnante du LSTM appelée xLSTM, qui a une scalabilité linéaire et surpasse les Transformers dans divers benchmarks linguistiques. Sa compréhension supérieure de la sémantique du texte