LSTM galt vor dem Aufkommen von ChatGPT als "die kommerziell wertvollste KI-Errungenschaft".
Schmidhuber möchte jedoch, dass die Menschen mehr über die Jahre 1990-1991 erfahren, die er mit dem "Wunderjahr" in der Physik (1905) vergleicht. Ihm zufolge legte er in dieser Zeit den Grundstein für "generative künstliche Intelligenz", indem er GANs (Generative Adversarial Networks), nicht-normalisierte lineare Transformatoren und selbstüberwachte Vortrainings-Prinzipien einführte. Dies hatte einen breiten Einfluss auf das "G", "P" und "T" in ChatGPT.
Daher wurde Schmidhuber schon vor dem Turing-Preis für das Deep-Learning-Trio (Geoffrey Hinton, Yoshua Bengio und Yann LeCun) von der New York Times als "Vater der reifen künstlichen Intelligenz" bezeichnet. Auch Elon Musk lobte ihn auf X mit den Worten: "Schmidhuber hat alles erfunden."
2013 wurde Schmidhuber von der International Neural Network Society (INNS) mit dem "Helmholtz Award" für seine bedeutenden Beiträge zum maschinellen Lernen ausgezeichnet. 2016 erhielt er den IEEE Neural Network Pioneer Award. Derzeit ist er wissenschaftlicher Direktor des IDSIA, eines KI-Labors in der Schweiz, und Leiter des KI-Programms an der King Abdullah University of Science and Technology (KAUST) in Saudi-Arabien. Außerdem ist er an den Aktivitäten mehrerer KI-Unternehmen beteiligt.
Dies wirft eine neue Frage auf: Warum hat er noch keinen Turing-Preis gewonnen?
Professor Zhou Zhihua, Dekan der School of Artificial Intelligence an der Universität Nanjing, bietet eine bemerkenswerte Perspektive: "Was die Beiträge zum Deep Learning betrifft, so steht Hinton zweifellos an erster Stelle, während LeCun und Schmidhuber beide bedeutende Beiträge geleistet haben. ### Aber HLB werden immer zusammen gebündelt. Um Preise zu gewinnen, braucht man Nominierungen und Stimmen, und auch persönliche Beziehungen sind wichtig. Aber das spielt keine Rolle; mit einem Beitrag auf Lehrbuchniveau wie LSTM kann er gelassen bleiben."
Während des zweitägigen ausführlichen Gesprächs mit "Jiazi Guangnian" präsentierte sich Schmidhuber mit seinem charakteristischen schwarzen Barett und fließendem Deutsch-Englisch als ein Gelehrter mit Humor und Zugänglichkeit. Hinter dieser freundlichen Fassade verbirgt sich jedoch ein unbeugsamer Geist, der bestrebt ist, in dem sich rasant entwickelnden Bereich der KI-Forschung wissenschaftliche Integrität zu etablieren.
Bei der Diskussion über die übersehenen Beiträge von ihm selbst und seinen akademischen Kollegen, insbesondere die bahnbrechenden Leistungen kleiner europäischer akademischer Labore vor den Tech-Giganten, offenbaren Schmidhubers Worte eine Dringlichkeit, die historische Aufzeichnung zu korrigieren.
In den letzten Jahren hat er sich in mehreren öffentlichen Debatten mit LeCun, Ian Goodfellow und anderen in sozialen Medien und bei Vorträgen engagiert und mit gut vorbereiteten und von Fachkollegen überprüften Argumenten andere beschuldigt, seine früher veröffentlichten Arbeiten "aufzuwärmen", wobei er argumentiert, dass die Anerkennung, die den frühen Pionieren auf dem Gebiet des Deep Learning gebührt, nicht geschmälert werden sollte.
Seine Offenheit führt natürlich zu Kontroversen über seine Persönlichkeit. Schmidhubers Perspektive, die in Europa und der Wissenschaft verwurzelt ist, bietet der Öffentlichkeit jedoch wertvolle vielfältige Sichtweisen jenseits der möglicherweise irreführenden Mainstream-Narrative aus dem Silicon Valley. Darüber hinaus beharrt er nicht nur darauf, für sich selbst zu sprechen, sondern lobt auch unermüdlich seine herausragenden Studenten und die unterschätzten Beitragenden in der Entwicklung der KI und bemüht sich, ihnen die gebührende Anerkennung zukommen zu lassen.
In Bezug auf die Debatte darüber, wer als "Vater der künstlichen Intelligenz" bezeichnet werden sollte, weist Schmidhuber darauf hin, dass ### der Aufbau von KI eine ganze Zivilisation erfordert. Und das Konzept der modernen KI war bereits Jahrzehnte oder sogar Jahrhunderte bevor der Begriff "künstliche Intelligenz" in den 1950er Jahren geprägt wurde, angetrieben von mathematischen und algorithmischen Prinzipien, entstanden.
Was negative Kommentare betrifft, die sich persönlich gegen ihn richten, erscheint Schmidhuber gelassener. Er zitiert oft den berühmten Sänger Elvis Presley: "Die Wahrheit ist wie die Sonne. Man kann sie eine Zeit lang ausblenden, aber sie wird nicht verschwinden."
In diesem Artikel interviewt "Jiazi Guangnian" Jürgen Schmidhuber und diskutiert die Ursprünge der künstlichen Intelligenz lange vor 1956, seine eigene Forschung und Ansichten zu den "drei Giganten des Deep Learning" und blickt in die Zukunft. Er glaubt, dass eine maschinelle Zivilisation entstehen könnte, die zur Selbstreplikation und Selbstverbesserung fähig ist. Auf dem Weg zur AGI glaubt er, dass neben großen Unternehmen auch jemand ohne viel Finanzierung umfassende Innovationen in der KI-Forschung bringen kann.
1. Eine bessere Architektur als Transformer
Jiazi Guangnian: Lassen Sie uns mit der Geschichte der künstlichen Intelligenz beginnen. Sie haben ein tiefes Verständnis für die Entwicklung der KI. Welche Aspekte der KI-Geschichte müssen Ihrer Meinung nach geklärt werden?
Schmidhuber: Es gibt sicherlich viele. Der Beginn der künstlichen Intelligenz lag viel früher als die Dartmouth-Konferenz 1956, als der Begriff "künstliche Intelligenz" zum ersten Mal auftauchte. Tatsächlich hatte Leonardo Torres y Quevedo bereits 1914 ein automatisiertes Gerät entworfen, das Schach spielen konnte. Damals galt Schach als exklusive Domäne intelligenter Wesen. Was die Theorie der künstlichen Intelligenz betrifft, so lässt sie sich bis zu Kurt Gödels Arbeiten von 1931-1934 zurückverfolgen, als er die grundlegenden Grenzen der KI-Berechnung festlegte.
Manche Leute sagen, dass künstliche neuronale Netze eine neue Sache sind, die in den 1950er Jahren aufkam, aber das stimmt nicht. Die Samen der Idee wurden vor mehr als 200 Jahren gepflanzt. Gauss und Legendre, zwei geniale Teenager, schlugen um 1800 Konzepte vor, die wir heute als lineare neuronale Netze erkennen, obwohl sie es damals "Methode der kleinsten Quadrate" nannten. Sie hatten Trainingsdaten, die aus Eingaben und gewünschten Ausgaben bestanden, und passten Gewichte an, um Trainingssatzfehler zu minimieren, um auf ungesehene Testdaten zu verallgemeinern, was im Wesentlichen ein lineares neuronales Netz ist.
Das ist das, was wir jetzt "flaches Lernen" nennen, also denken manche Leute, dass das leistungsfähigere und neuartige "tiefe Lernen" eine Innovation des 21. Jahrhunderts ist. Aber das ist nicht der Fall. 1965 entwickelten Alexey Ivakhnenko und Valentin Lapa in der Ukraine das erste lernfähige tiefe Mehrschichtnetzwerk. Zum Beispiel beschrieb Ivakhnenkos Artikel von 1970 ein achtschichtiges Deep-Learning-Netzwerk. Leider zitierten andere, als sie später dieselben Ideen und Konzepte neu veröffentlichten, die ukrainischen Erfinder nicht. Es gibt viele Fälle von absichtlichem oder unabsichtlichem Plagiat in unserem Bereich.
Jiazi Guangnian: Sie selbst haben eine wichtige Rolle in der Geschichte der künstlichen Intelligenz gespielt. Können Sie uns von diesem Wunderjahr 1991 erzählen? Welche Beiträge hat Ihre Forschung damals zur KI-Industrie geleistet?
Schmidhuber: 1990 bis 1991 war unsere Zeit der Wunder, auf die ich sehr stolz bin. In nur einem Jahr haben wir in unserem Labor an der Technischen Universität München viele Kernideen hervorgebracht, die die heutige generative KI unterstützen.
Beginnen wir mit ChatGPT. Das GPT in seinem Namen steht für Generative Pre-trained Transformer. Sprechen wir zunächst über das G in GPT und generative KI. Seine Wurzeln lassen sich zurückverfolgen auf ### das Konzept der generativen gegnerischen Netzwerke, das ich 1990 erstmals vorschlug. Damals nannte ich es "künstliche Neugier", bei der zwei gegeneinander spielende neuronale Netzwerke (ein Generator mit adaptiven probabilistischen Einheiten und ein vom Output des Generators beeinflusster Prädiktor) Gradientenabstieg verwenden, um die Verluste des jeweils anderen im Spiel zu maximieren. ### In einem Minimax-Spiel versucht der Generator jedoch zu maximieren, was der Prädiktor zu minimieren versucht. Mit anderen Worten, er versucht, den Gegner zu "täuschen", indem er unvorhersehbare Inhalte generiert, um die Grenzen des Prädiktors herauszufordern. Diese Technologie wurde später im Bereich Deepfake weit verbreitet.
Was das P betrifft, den "Pre-training"-Teil von GPT, habe ich auch 1991 darüber veröffentlicht. Ich fand heraus, dass unüberwachtes oder selbstüberwachtes Vortraining Sequenzen stark komprimieren kann, was das nachfolgende tiefe Lernen langer Sequenzen (wie sehr lange Texte) erleichtert.
T steht für Transformer. Manche Leute denken, er sei 2017 bei Google entstanden, aber tatsächlich hatte ich bereits 1991 eine Variante dieses Konzepts eingeführt, genannt "Fast Weight Controller", von dem eine Variante heute als "nicht-normalisierter linearer Transformer" bekannt ist. Dieser frühe Transformer war extrem effizient und benötigte nur 100-mal so viel Rechenleistung für 100-mal so viel Input, anstatt 10.000-mal wie aktuelle Transformer.
Jiazi Guangnian: Viele Leute, einschließlich der Autoren des Transformers, haben erklärt, dass wir eine bessere Architektur als den Transformer brauchen. Er ist sicherlich nicht perfekt, wie sollte also Ihrer Meinung nach die Architektur der nächsten Generation aussehen?
Schmidhuber: Jetzt ist die Verbesserung der Transformer-Effizienz ein heißes Thema, und mein Design von 1991 ist zweifellos ein ausgezeichneter Ausgangspunkt.
Für Diskussionen über die nächste Generation von LLMs können wir zur Anfangsphase zurückgehen. Damals verwendeten sowohl Google als auch Facebook unsere Long Short-Term Memory Netzwerke oder LSTM Recurrent Neural Networks (RNNs), die auf die Dissertation meines herausragenden Studenten Sepp Hochreiter von 1991 zurückgehen. Diese Dissertation beschrieb nicht nur Experimente mit dem oben erwähnten Vortraining (das P in GPT), sondern führte auch Residual-Verbindungen ein, die Kernkomponenten von LSTM sind und sehr tiefes Lernen und die Verarbeitung sehr langer Sequenzen ermöglichen. ### Ich schlug den Namen LSTM 1995 vor, aber der Name ist nicht wichtig, wichtig ist die Mathematik dahinter. Erst in den späten 2010er Jahren wurde LSTM durch Transformer ersetzt, weil Transformer leichter zu parallelisieren sind, was der Schlüssel ist, um von der heutigen massiv parallelen neuronalen Netzwerk-Hardware (wie NVIDIAs GPUs) zu profitieren.
Jiazi Guangnian: Können RNNs Aufgaben lösen, die Transformer nicht können?
Schmidhuber: Im Prinzip sollten sie leistungsfähiger sein. Zum Beispiel die Paritätsprüfung: Gegeben eine Bitfolge wie 01100, 101 oder 1000010101110, ist die Anzahl der 1en ungerade oder gerade? Es sieht wie eine einfache Aufgabe aus, aber Transformer können sie nicht verallgemeinern. Selbst einfache RNNs können diese Aufgabe jedoch lösen.
Kürzlich entwickelte Hochreiters Team eine beeindruckende LSTM-Erweiterung namens xLSTM, die linear skalierbar ist und Transformer in verschiedenen Sprachbenchmarks übertrifft. Ihr überlegenes Verständnis von Textsemantikem