O LSTM foi considerado "a conquista de IA mais valiosa comercialmente" antes do advento do ChatGPT.
No entanto, Schmidhuber quer que as pessoas saibam mais sobre os anos 1990-1991, que ele compara ao "ano milagroso" na física (1905). Segundo ele, durante esse período, ele lançou as bases para a "inteligência artificial generativa" ao introduzir GANs (Redes Adversariais Generativas), Transformers lineares não normalizados e princípios de pré-treinamento auto-supervisionado. Isso teve um amplo impacto no "G", "P" e "T" do ChatGPT.
Portanto, mesmo antes do trio de aprendizado profundo (Geoffrey Hinton, Yoshua Bengio e Yann LeCun) ganhar o Prêmio Turing, Schmidhuber já era apelidado de "pai da inteligência artificial madura" pelo The New York Times. Elon Musk também o elogiou no X, dizendo: "Schmidhuber inventou tudo".
Em 2013, Schmidhuber recebeu o "Prêmio Helmholtz" da Sociedade Internacional de Redes Neurais (INNS) em reconhecimento às suas significativas contribuições para o aprendizado de máquina. Em 2016, ele recebeu o Prêmio Pioneiro em Redes Neurais do IEEE. Atualmente, ele atua como Diretor Científico do IDSIA, um laboratório de IA na Suíça, e como chefe do programa de IA na Universidade de Ciência e Tecnologia King Abdullah (KAUST) na Arábia Saudita. Ele também está envolvido nas operações de várias empresas de IA.
Isso levanta uma nova questão: por que ele ainda não ganhou um Prêmio Turing?
O Professor Zhou Zhihua, Reitor da Escola de Inteligência Artificial da Universidade de Nanjing, oferece uma perspectiva notável: "Em termos de contribuições para o aprendizado profundo, Hinton sem dúvida ocupa o primeiro lugar, com LeCun e Schmidhuber fazendo contribuições significativas. ### Mas HLB estão sempre agrupados. Ganhar prêmios requer indicações e votos, e relações pessoais também são importantes. No entanto, isso não importa; com uma contribuição de nível de livro didático como o LSTM, ele pode permanecer calmo."
Durante a conversa aprofundada de dois dias com "Jiazi Guangnian", Schmidhuber, com sua característica boina preta elegante e inglês fluente com sotaque alemão, se apresentou como um estudioso com humor e acessibilidade. No entanto, sob esse exterior amigável, reside um espírito indomável, ansioso para estabelecer integridade científica no campo em rápido desenvolvimento da pesquisa em IA.
Ao discutir as contribuições negligenciadas de si mesmo e de seus colegas acadêmicos, especialmente as conquistas inovadoras de pequenos laboratórios acadêmicos europeus antes das gigantes de tecnologia, as palavras de Schmidhuber revelam uma urgência em corrigir o registro histórico.
Nos últimos anos, ele se envolveu em múltiplos debates públicos com LeCun, Ian Goodfellow e outros nas redes sociais e em eventos de palestras, usando argumentos bem preparados e revisados por pares para acusar outros de "requentar" seu trabalho publicado anteriormente, argumentando que o reconhecimento devido aos pioneiros iniciais no campo do aprendizado profundo não deve ser diminuído.
Sua franqueza naturalmente leva a controvérsias sobre sua personalidade. No entanto, a perspectiva de Schmidhuber, enraizada na Europa e na academia, de fato fornece ao público pontos de vista diversos valiosos além das narrativas potencialmente enganosas da Silicon Valley. Além disso, ele não apenas persiste em falar por si mesmo, mas também incansavelmente elogia seus excelentes alunos e aqueles contribuidores subestimados no desenvolvimento da IA, esforçando-se para dar-lhes o devido crédito.
Quanto ao debate sobre quem deve ser chamado de "pai da inteligência artificial", Schmidhuber aponta que ### construir IA requer uma civilização inteira. E o conceito de IA moderna já havia surgido, impulsionado por princípios matemáticos e algorítmicos, décadas ou até séculos antes do termo "inteligência artificial" ser cunhado na década de 1950.
Quanto aos comentários negativos dirigidos a ele pessoalmente, Schmidhuber parece mais despreocupado. Ele frequentemente cita o famoso cantor Elvis Presley: "A verdade é como o sol. Você pode bloqueá-la por um tempo, mas ela não vai embora."
Neste artigo, "Jiazi Guangnian" entrevista Jürgen Schmidhuber, discutindo as origens da inteligência artificial muito antes de 1956, sua própria pesquisa e visões sobre os "três gigantes do aprendizado profundo", e olhando para o futuro. Ele acredita que uma civilização de máquinas capaz de auto-replicação e auto-aperfeiçoamento pode surgir. No caminho para a AGI, ele acredita que além de grandes empresas, alguém sem muito financiamento também pode trazer inovação abrangente para a pesquisa em IA.
1. Uma Arquitetura Melhor que o Transformer
Jiazi Guangnian: Vamos começar com a história da inteligência artificial. Você tem um profundo entendimento do desenvolvimento da IA. Que aspectos da história da IA você acha que precisam de esclarecimento?
Schmidhuber: Certamente há muitos. O início da inteligência artificial foi muito anterior à Conferência de Dartmouth em 1956, quando o termo "inteligência artificial" apareceu pela primeira vez. Na verdade, já em 1914, Leonardo Torres e Quevedo já haviam projetado um dispositivo automatizado capaz de jogar xadrez. Naquela época, o xadrez era considerado domínio exclusivo de seres inteligentes. Quanto à teoria da inteligência artificial, ela pode ser rastreada até o trabalho de Kurt Gödel de 1931-1934, quando ele estabeleceu as limitações fundamentais da computação de IA.
Algumas pessoas dizem que as redes neurais artificiais são uma coisa nova que surgiu na década de 1950, mas isso não é verdade. As sementes da ideia foram plantadas há mais de 200 anos. Gauss e Legendre, dois adolescentes gênios, propuseram conceitos por volta de 1800 que agora reconhecemos como redes neurais lineares, embora eles chamassem de "método dos mínimos quadrados" na época. Eles tinham dados de treinamento consistindo em entradas e saídas desejadas, e ajustavam pesos para minimizar erros do conjunto de treinamento a fim de generalizar para dados de teste não vistos, o que é essencialmente uma rede neural linear.
Isso é o que agora chamamos de "aprendizado raso", então algumas pessoas pensam que o "aprendizado profundo" mais poderoso e novo é uma inovação do século 21. Mas não é o caso. Em 1965, na Ucrânia, Alexey Ivakhnenko e Valentin Lapa pioneiraram a primeira rede multicamadas profunda aprendível. Por exemplo, o artigo de Ivakhnenko de 1970 detalhou uma rede de aprendizado profundo de oito camadas. Infelizmente, quando outros posteriormente republicaram as mesmas ideias e conceitos, eles não citaram os inventores ucranianos. Há muitos casos de plágio intencional ou não intencional em nosso campo.
Jiazi Guangnian: Você mesmo desempenhou um papel importante na história da inteligência artificial. Você pode nos contar sobre aquele ano milagroso de 1991? Que contribuições sua pesquisa fez para a indústria de IA naquela época?
Schmidhuber: 1990 a 1991 foi nosso tempo de criar milagres, do qual tenho muito orgulho. Em apenas um ano, nutrimos muitas ideias centrais que sustentam a IA generativa de hoje em nosso laboratório na Universidade Técnica de Munique.
Vamos começar com o ChatGPT. O GPT em seu nome significa Generative Pre-trained Transformer. Primeiro, vamos falar sobre o G em GPT e IA generativa. Suas raízes podem ser rastreadas até ### o conceito de redes adversariais generativas que propus pela primeira vez em 1990. Na época, eu chamei de "curiosidade artificial", onde duas redes neurais jogando uma contra a outra (um gerador com unidades probabilísticas adaptativas e um preditor influenciado pela saída do gerador) usam descida de gradiente para maximizar as perdas uma da outra no jogo. No entanto, ### em um jogo minimax, o gerador tenta maximizar o que o preditor está tentando minimizar. Em outras palavras, está tentando "enganar" o oponente gerando conteúdo imprevisível para desafiar os limites do preditor. Esta tecnologia foi posteriormente amplamente utilizada no campo do Deepfake.
Quanto ao P, a parte de "pré-treinamento" do GPT, também publiquei sobre isso em 1991. Descobri que o pré-treinamento não supervisionado ou auto-supervisionado pode comprimir muito as sequências, facilitando assim o aprendizado profundo downstream de sequências longas (como textos muito longos).
T significa Transformer. Algumas pessoas pensam que nasceu no Google em 2017, mas na verdade, eu já havia introduzido uma variante desse conceito em 1991, chamada de "controlador de peso rápido", uma variante da qual é agora conhecida como "Transformer linear não normalizado". Este Transformer inicial era extremamente eficiente, exigindo apenas 100 vezes a computação para 100 vezes a entrada, em vez de 10.000 vezes como os Transformers atuais.
Jiazi Guangnian: Muitas pessoas, incluindo os autores do Transformer, afirmaram que precisamos de uma arquitetura melhor que o Transformer. Certamente não é perfeito, então como você acha que a arquitetura da próxima geração deveria ser?
Schmidhuber: Agora, melhorar a eficiência do Transformer é um tópico quente, e meu design de 1991 é sem dúvida um excelente ponto de partida.
Para discussões sobre a próxima geração de LLMs, podemos voltar ao estágio inicial. Naquela época, tanto o Google quanto o Facebook estavam usando nossas redes Long Short-Term Memory, ou LSTM Recurrent Neural Networks (RNNs), que podem ser rastreadas até a tese de 1991 do meu excelente aluno Sepp Hochreiter. Esta tese não apenas descreveu experimentos com o pré-treinamento mencionado anteriormente (o P em GPT), mas também introduziu conexões residuais, que são componentes centrais do LSTM, permitindo aprendizado muito profundo e processamento de sequências muito longas. ### Eu propus o nome LSTM em 1995, mas o nome não é importante, o importante é a matemática por trás dele. Não foi até o final dos anos 2010 que o LSTM foi substituído pelo Transformer, porque o Transformer é mais fácil de paralelizar, o que é fundamental para se beneficiar do hardware de rede neural massivamente paralelo de hoje (como as GPUs da NVIDIA).
Jiazi Guangnian: As RNNs podem resolver tarefas que os Transformers não podem?
Schmidhuber: Em princípio, deveria ser mais poderoso. Por exemplo, verificação de paridade: dada uma string de bits como 01100, 101 ou 1000010101110, o número de 1s é ímpar ou par? Parece uma tarefa simples, mas os Transformers não conseguem generalizá-la. No entanto, até mesmo RNNs simples podem resolver esta tarefa.
Recentemente, a equipe de Hochreiter desenvolveu uma impressionante extensão do LSTM chamada xLSTM, que tem escalabilidade linear e supera os Transformers em vários benchmarks de linguagem. Sua compreensão superior da semântica do texto