対話型生成AIの先駆者シュミットフーバー：チューリング賞受賞を逃した後の反省

LSTMは、ChatGPTの登場以前は「商業的に最も価値のあるAIの成果」と考えられていました。

しかし、Schmidhuberは、物理学の「奇跡の年」(1905年)に匹敵する1990年から1991年についてもっと知ってほしいと考えています。彼によると、その期間に彼は、GANs(敵対的生成ネットワーク)、非正規化線形Transformer、自己教師あり事前学習の原理を導入することで、「生成AIの基礎」を築きました。これはChatGPTの「G」「P」「T」に広範な影響を与えました。

そのため、ディープラーニングのトリオ(Geoffrey Hinton、Yoshua Bengio、Yann LeCun)がチューリング賞を受賞する前から、Schmidhuberはニューヨークタイムズによって「成熟した人工知能の父」と呼ばれていました。Elon MuskもXで彼を称賛し、「Schmidhuberはすべてを発明した」と述べています。

2013年、SchmidhuberはInternational Neural Network Society (INNS)から「Helmholtz Award」を授与され、機械学習への重要な貢献が認められました。2016年には、IEEE Neural Network Pioneer Awardを受賞しました。現在、スイスのAIラボIDSIAの科学ディレクター、サウジアラビアのKing Abdullah University of Science and Technology (KAUST)のAIプログラム責任者を務めています。また、複数のAI企業の運営にも関わっています。

これは新たな疑問を提起します：なぜ彼はまだチューリング賞を受賞していないのでしょうか？

南京大学人工知能学院の周志華教授は注目すべき見解を示しています：「ディープラーニングへの貢献という点では、Hintonが間違いなく1位で、LeCunとSchmidhuberも大きな貢献をしています。### しかし、HLBは常にセットで扱われます。賞の受賞には推薦と投票が必要で、人間関係も重要です。しかし、それは問題ではありません。LSTMのような教科書レベルの貢献があれば、落ち着いていられるはずです。」

「Jiazi Guangnian」との2日間の深い対話の中で、Schmidhuberは、特徴的なスタイリッシュな黒いベレー帽と流暢なドイツ訛りの英語で、ユーモアと親しみやすさを兼ね備えた学者として自身を表現しました。しかし、この親しみやすい外見の下には、急速に発展するAI研究分野で科学的誠実さを確立したいという不屈の精神が隠されています。

自身や学術同僚の見過ごされた貢献、特にテック大手企業以前の小規模な欧州の学術研究室による画期的な成果について議論する際、Schmidhuberの言葉には歴史的記録を正す緊急性が表れています。

過去数年間、彼はソーシャルメディアや講演会で、LeCun、Ian Goodfellowらと複数の公開討論を行い、よく準備された査読済みの議論を用いて、他者が彼の以前に発表した研究を「再加熱」していると非難し、ディープラーニング分野の初期のパイオニアに与えられるべき認知が減じられるべきではないと主張しています。

彼の率直な発言は当然ながら彼の性格に関する論争を引き起こします。しかし、ヨーロッパと学術界に根ざしたSchmidhuberの視点は、シリコンバレーからの潜在的に誤解を招く主流の物語を超えた、貴重な多様な見方を公衆に提供しています。さらに、彼は自分自身のために発言し続けるだけでなく、優秀な学生たちやAIの発展において過小評価されている貢献者たちを疲れを知らずに称賛し、彼らに相応の評価を与えようと努力しています。

「人工知能の父」と呼ばれるべき人物をめぐる議論について、Schmidhuberは ### AIの構築には文明全体が必要だと指摘しています。そして、現代AIの概念は、1950年代に「人工知能」という用語が生まれる何十年も、あるいは何世紀も前から、数学的およびアルゴリズム的原理によって推進されていたのです。

彼個人に向けられた否定的なコメントについて、Schmidhuberはより無頓着に見えます。彼はしばしば有名な歌手エルビス・プレスリーの言葉を引用します：「真実は太陽のようなものだ。一時的に遮ることはできても、消えることはない。」

この記事で、「Jiazi Guangnian」はJürgen Schmidhuberにインタビューし、1956年よりはるか以前の人工知能の起源、彼自身の研究と「ディープラーニングの3巨人」に対する見解、そして未来への展望について議論しています。彼は、自己複製と自己改善が可能な機械文明が出現する可能性があると考えています。AGIへの道において、彼は大企業に加えて、多くの資金を持たない誰かでもAI研究に包括的なイノベーションをもたらす可能性があると信じています。

1. Transformerよりも優れたアーキテクチャ

Jiazi Guangnian：人工知能の歴史から始めましょう。あなたはAIの発展について深い理解をお持ちです。AIの歴史のどの側面が明確にされる必要があると思いますか？

Schmidhuber：確かに多くあります。人工知能の始まりは、「人工知能」という用語が初めて登場した1956年のダートマス会議よりもはるかに早かったのです。実際、1914年にはすでにLeonardo TorresとQuevedoがチェスをプレイできる自動装置を設計していました。当時、チェスは知的な存在の専売特許と考えられていました。人工知能の理論に関しては、1931年から1934年のKurt Gödelの研究にまで遡ることができます。彼はAI計算の基本的な限界を確立しました。

人工ニューラルネットワークは1950年代に登場した新しいものだと言う人もいますが、それは事実ではありません。その考えの種は200年以上前に蒔かれていました。天才少年のガウスとルジャンドルは、1800年頃に現在我々が線形ニューラルネットワークと認識する概念を提案しました。当時は「最小二乗法」と呼んでいましたが。彼らは入力と望ましい出力からなるトレーニングデータを持ち、トレーニングセットの誤差を最小化するように重みを調整し、未見のテストデータに一般化しようとしました。これは本質的に線形ニューラルネットワークです。

これは現在「浅い学習」と呼ばれているものですが、より強力で新しい「深層学習」が21世紀の革新だと考える人もいます。しかし、そうではありません。1965年、ウクライナでAlexey IvakhnenkoとValentin Lapaが最初の学習可能な深層多層ネットワークを先駆けました。例えば、Ivakhnenkoの1970年の論文では8層の深層学習ネットワークが詳細に説明されています。残念ながら、後に他の人々が同じアイデアと概念を再発表した際、ウクライナの発明者を引用しませんでした。我々の分野には、意図的または無意識の剽窃が多くあります。

Jiazi Guangnian：あなた自身も人工知能の歴史で重要な役割を果たしてきました。1991年の奇跡の年について教えていただけますか？当時、あなたの研究はAI産業にどのような貢献をしましたか？

Schmidhuber：1990年から1991年は私たちにとって奇跡を生み出す時期でした。私はそれを非常に誇りに思っています。わずか1年で、ミュンヘン工科大学の研究室で、今日の生成AIを支える多くのコアアイデアを育てました。

ChatGPTから始めましょう。その名前のGPTは、Generative Pre-trained Transformerの略です。まず、GPTのGと生成AIについて話しましょう。その起源は ### 1990年に私が最初に提案した敵対的生成ネットワークの概念にまで遡ります。当時、私はそれを「人工好奇心」と呼んでいました。2つのニューラルネットワークが互いに対抗し合い（適応的確率ユニットを持つジェネレーターとジェネレーターの出力に影響されるプレディクター）、勾配降下法を使ってゲームでお互いの損失を最大化します。しかし、### ミニマックスゲームでは、ジェネレーターはプレディクターが最小化しようとしているものを最大化しようとします。言い換えれば、予測不可能なコンテンツを生成してプレディクターの限界に挑戦することで、相手を「欺こう」としているのです。この技術は後にディープフェイクの分野で広く使用されました。

Pについては、GPTの「事前学習」の部分ですが、これについても1991年に発表しました。教師なしまたは自己教師あり事前学習が配列を大幅に圧縮できることを発見し、それによって非常に長い配列（非常に長いテキストなど）の下流の深層学習を容易にすることができました。

TはTransformerを表します。2017年にGoogleで生まれたと考える人もいますが、実際には1991年に私がすでにこの概念の変種を導入していました。「高速重み制御器」と呼ばれ、その一変種は現在「非正規化線形Transformer」として知られています。この初期のTransformerは非常に効率的で、入力が100倍になっても計算量は100倍で済み、現在のTransformerのように10,000倍にはなりませんでした。

Jiazi Guangnian：Transformerの著者を含む多くの人々が、Transformerよりも優れたアーキテクチャが必要だと述べています。確かに完璧ではありませんが、次世代のアーキテクチャはどのようなものであるべきだと思いますか？

Schmidhuber：現在、Transformerの効率を改善することがホットトピックですが、私の1991年のデザインは間違いなく優れた出発点です。

次世代のLLMに関する議論については、初期段階に戻ることができます。当時、GoogleもFacebookも、私たちのLong Short-Term Memoryネットワーク、つまりLSTM Recurrent Neural Networks (RNNs)を使用していました。これは私の優秀な学生Sepp Hochreiterの1991年の論文にまで遡ります。この論文は、前述の事前学習（GPTのP）に関する実験を記述しただけでなく、残差接続も導入しました。これはLSTMの中核コンポーネントで、非常に深い学習と非常に長い配列の処理を可能にしました。### 私は1995年にLSTMという名前を提案しましたが、名前は重要ではありません。重要なのはその背後にある数学です。2010年代後半になってようやくLSTMがTransformerに置き換えられましたが、それはTransformerの方が並列化しやすく、今日の大規模並列ニューラルネットワークハードウェア（NVIDIAのGPUなど）の恩恵を受けやすいからです。

Jiazi Guangnian：RNNはTransformerが解決できないタスクを解決できますか？

Schmidhuber：原理的にはより強力であるはずです。例えば、パリティチェック：01100、101、1000010101110のようなビット列が与えられたとき、1の数が奇数か偶数かを判断するタスクです。単純なタスクに見えますが、Transformerはこれを一般化できません。しかし、単純なRNNでさえこのタスクを解決できます。

最近、Hochreiterのチームは印象的なLSTMの拡張であるxLSTMを開発しました。これは線形スケーラビリティを持ち、様々な言語ベンチマークでTransformerを上回る性能を示しています。テキストの意味論のより優れた理解を示しています