LSTM считалась "наиболее коммерчески ценным достижением ИИ" до появления ChatGPT.
Однако Шмидхубер хочет, чтобы люди больше знали о 1990-1991 годах, которые он сравнивает с "чудесным годом" в физике (1905). По его словам, в этот период он заложил основы "генеративного искусственного интеллекта", представив GAN (генеративно-состязательные сети), ненормализованные линейные трансформеры и принципы самоконтролируемого предобучения. Это оказало широкое влияние на "G", "P" и "T" в ChatGPT.
Поэтому еще до того, как трио глубокого обучения (Джеффри Хинтон, Йошуа Бенджио и Ян Лекун) получило премию Тьюринга, The New York Times уже назвала Шмидхубера "отцом зрелого искусственного интеллекта". Илон Маск также похвалил его в X, сказав: "Шмидхубер изобрел все".
В 2013 году Шмидхубер был награжден "премией Гельмгольца" Международным обществом нейронных сетей (INNS) за значительный вклад в машинное обучение. В 2016 году он получил награду IEEE Neural Network Pioneer Award. В настоящее время он является научным директором IDSIA, лаборатории ИИ в Швейцарии, и руководителем программы ИИ в Научно-техническом университете короля Абдаллы (KAUST) в Саудовской Аравии. Он также участвует в работе нескольких компаний, занимающихся ИИ.
Это поднимает новый вопрос: почему он еще не получил премию Тьюринга?
Профессор Чжоу Чжихуа, декан Школы искусственного интеллекта Нанкинского университета, предлагает заслуживающую внимания точку зрения: "С точки зрения вклада в глубокое обучение, Хинтон, несомненно, занимает первое место, а Лекун и Шмидхубер внесли значительный вклад. ### Но HLB всегда объединяются вместе. Для получения наград требуются номинации и голоса, и личные отношения также важны. Однако это не имеет значения; с вкладом уровня учебника, как LSTM, он может оставаться спокойным".
Во время двухдневной углубленной беседы с "Цзязи Гуаннянь" Шмидхубер, со своим фирменным стильным черным беретом и беглым английским с немецким акцентом, предстал как ученый с чувством юмора и доступностью. Однако под этой приветливой внешностью скрывается несгибаемый дух, стремящийся установить научную честность в быстро развивающейся области исследований ИИ.
Обсуждая недооцененный вклад себя и своих академических коллег, особенно новаторские достижения небольших европейских академических лабораторий до технологических гигантов, слова Шмидхубера раскрывают срочность исправления исторической записи.
За последние несколько лет он участвовал в нескольких публичных дебатах с Лекуном, Яном Гудфеллоу и другими в социальных сетях и на выступлениях, используя хорошо подготовленные и рецензируемые аргументы, чтобы обвинить других в "разогреве" его ранее опубликованных работ, утверждая, что признание, причитающееся ранним пионерам в области глубокого обучения, не должно уменьшаться.
Его откровенность естественно приводит к спорам о его личности. Однако точка зрения Шмидхубера, укорененная в Европе и академических кругах, действительно предоставляет общественности ценные разнообразные взгляды за пределами потенциально вводящих в заблуждение основных нарративов из Кремниевой долины. Более того, он не только настаивает на том, чтобы говорить за себя, но и неустанно хвалит своих выдающихся студентов и тех недооцененных вкладчиков в развитие ИИ, стремясь воздать им должное.
Что касается дебатов о том, кого следует называть "отцом искусственного интеллекта", Шмидхубер указывает, что ### для создания ИИ требуется целая цивилизация. И концепция современного ИИ уже появилась, движимая математическими и алгоритмическими принципами, за десятилетия или даже столетия до того, как термин "искусственный интеллект" был придуман в 1950-х годах.
Что касается негативных комментариев, направленных на него лично, Шмидхубер кажется более беззаботным. Он часто цитирует знаменитого певца Элвиса Пресли: "Правда подобна солнцу. Вы можете закрыть ее на время, но она не исчезнет".
В этой статье "Цзязи Гуаннянь" берет интервью у Юргена Шмидхубера, обсуждая истоки искусственного интеллекта задолго до 1956 года, его собственные исследования и взгляды на "трех гигантов глубокого обучения", а также заглядывая в будущее. Он считает, что может возникнуть машинная цивилизация, способная к самовоспроизведению и самосовершенствованию. На пути к AGI он считает, что помимо крупных компаний, кто-то без большого финансирования также может принести всестороннюю инновацию в исследования ИИ.
1. Лучшая архитектура, чем Transformer
Цзязи Гуаннянь: Давайте начнем с истории искусственного интеллекта. У вас глубокое понимание развития ИИ. Какие аспекты истории ИИ, по вашему мнению, нуждаются в уточнении?
Шмидхубер: Их, безусловно, много. Начало искусственного интеллекта было намного раньше Дартмутской конференции 1956 года, когда впервые появился термин "искусственный интеллект". На самом деле, еще в 1914 году Леонардо Торрес и Кеведо уже разработали автоматизированное устройство, способное играть в шахматы. В то время шахматы считались исключительной областью разумных существ. Что касается теории искусственного интеллекта, ее можно проследить до работ Курта Геделя 1931-1934 годов, когда он установил фундаментальные ограничения вычислений ИИ.
Некоторые говорят, что искусственные нейронные сети - это новое явление, возникшее в 1950-х годах, но это не так. Семена этой идеи были посеяны более 200 лет назад. Гаусс и Лежандр, два гениальных подростка, предложили концепции около 1800 года, которые мы сейчас признаем как линейные нейронные сети, хотя в то время они называли это "методом наименьших квадратов". У них были обучающие данные, состоящие из входов и желаемых выходов, и они настраивали веса для минимизации ошибок обучающего набора, чтобы обобщить на невиданные тестовые данные, что по сути является линейной нейронной сетью.
Это то, что мы сейчас называем "поверхностным обучением", поэтому некоторые думают, что более мощное и новое "глубокое обучение" - это инновация 21 века. Но это не так. В 1965 году в Украине Алексей Ивахненко и Валентин Лапа стали пионерами первой обучаемой глубокой многослойной сети. Например, статья Ивахненко 1970 года подробно описывала восьмислойную сеть глубокого обучения. К сожалению, когда другие позже переиздавали те же идеи и концепции, они не цитировали украинских изобретателей. В нашей области много случаев преднамеренного или непреднамеренного плагиата.
Цзязи Гуаннянь: Вы сами сыграли важную роль в истории искусственного интеллекта. Можете ли вы рассказать о том чудесном 1991 году? Какой вклад ваши исследования внесли в индустрию ИИ в то время?
Шмидхубер: 1990-1991 годы были нашим временем создания чудес, чем я очень горжусь. Всего за один год мы взрастили в нашей лаборатории в Техническом университете Мюнхена множество ключевых идей, которые поддерживают сегодняшний генеративный ИИ.
Давайте начнем с ChatGPT. GPT в его названии означает Generative Pre-trained Transformer. Сначала поговорим о G в GPT и генеративном ИИ. Его корни можно проследить до ### концепции генеративно-состязательных сетей, которую я впервые предложил в 1990 году. В то время я называл это "искусственным любопытством", где две нейронные сети, играющие друг против друга (генератор с адаптивными вероятностными единицами и предсказатель, на который влияет выход генератора), используют градиентный спуск для максимизации потерь друг друга в игре. Однако ### в игре минимакс генератор пытается максимизировать то, что предсказатель пытается минимизировать. Другими словами, он пытается "обмануть" противника, генерируя непредсказуемый контент, чтобы бросить вызов пределам предсказателя. Эта технология позже широко использовалась в области Deepfake.
Что касается P, части "предобучения" GPT, я также опубликовал об этом в 1991 году. Я обнаружил, что неконтролируемое или самоконтролируемое предобучение может значительно сжимать последовательности, тем самым облегчая последующее глубокое обучение длинных последовательностей (таких как очень длинные тексты).
T означает Transformer. Некоторые думают, что он родился в Google в 2017 году, но на самом деле я уже представил вариант этой концепции в 1991 году, названный "контроллером быстрых весов", один из вариантов которого сейчас известен как "ненормализованный линейный Transformer". Этот ранний Transformer был чрезвычайно эффективным, требуя только в 100 раз больше вычислений для 100-кратного входа, а не в 10 000 раз, как нынешние Transformer.
Цзязи Гуаннянь: Многие люди, включая авторов Transformer, заявили, что нам нужна лучшая архитектура, чем Transformer. Он, безусловно, не идеален, так как, по вашему мнению, должна выглядеть архитектура следующего поколения?
Шмидхубер: Сейчас повышение эффективности Transformer - горячая тема, и мой дизайн 1991 года, несомненно, является отличной отправной точкой.
Для обсуждения следующего поколения LLM мы можем вернуться к начальному этапу. В то время и Google, и Facebook использовали наши сети Long Short-Term Memory, или LSTM Recurrent Neural Networks (RNN), которые можно проследить до диссертации 1991 года моего выдающегося студента Сеппа Хохрайтера. Эта диссертация не только описывала эксперименты с вышеупомянутым предобучением (P в GPT), но и представила остаточные соединения, которые являются основными компонентами LSTM, позволяющими очень глубокое обучение и обработку очень длинных последовательностей. ### Я предложил название LSTM в 1995 году, но название не важно, важна математика, стоящая за ним. Только в конце 2010-х годов LSTM была заменена Transformer, потому что Transformer легче распараллелить, что является ключом к использованию преимуществ современного массово параллельного аппаратного обеспечения нейронных сетей (например, GPU NVIDIA).
Цзязи Гуаннянь: Могут ли RNN решать задачи, которые не могут решить Transformer?
Шмидхубер: В принципе, они должны быть более мощными. Например, проверка четности: дана битовая строка, например 01100, 101 или 1000010101110, является ли число единиц нечетным или четным? Это выглядит простой задачей, но Transformer не могут ее обобщить. Однако даже простые RNN могут решить эту задачу.
Недавно команда Хохрайтера разработала впечатляющее расширение LSTM под названием xLSTM, которое имеет линейную масштабируемость и превосходит Transformer в различных языковых тестах. Его превосходное понимание семантики текста