Доцент кафедры электротехники и вычислительной техники Калифорнийского университета в Дэвисе Чен Юбэй занимается исследованиями, связанными с "моделями белого ящика". Кроме того, он является постдоком лауреата премии Тьюринга и главного научного сотрудника Meta Яна Лекуна. В этом выпуске он рассказал нам о последних исследованиях в области моделей белого ящика, а также поделился своими впечатлениями о Яне Лекуне - ученом, который пережил взлеты и падения в индустрии ИИ, но остался чистым и сосредоточенным.
Вот некоторые избранные фрагменты интервью
01 Человеческий мозг и большие модели
«Кремниевая долина 101»: Не могли бы вы кратко рассказать об исследованиях "моделей белого ящика", которыми вы сейчас занимаетесь? Обнаружили ли вы в ходе своих исследований, как можно объяснить проблему ввода-вывода GPT?
Чен Юбэй: Основная цель этого направления - продвинуть глубокое обучение от чисто эмпирической дисциплины к научной, или, другими словами, превратить инженерию в науку, поскольку в настоящее время инженерия развивается довольно быстро, а наука относительно медленно. Раньше была модель, называемая вложением слов (embedding), которая могла изучать некоторые представления языка.
На самом деле у всех тогда возник вопрос: производительность наших задач улучшилась, но что именно привело к этому улучшению? Поэтому мы провели очень раннюю работу, пытаясь открыть эти словарные представления. Когда вы открываете их, вы обнаруживаете некоторые очень интересные явления.
Например, для слова "яблоко" вы можете найти некоторые элементарные значения внутри него, например, одно из значений может представлять фрукт, другое - десерт, а если копнуть глубже, вы найдете значения технологии и продукта, которые, конечно, относятся к продуктам компании Apple. Таким образом, вы обнаружите, что, следуя за словом, вы можете найти эти элементарные значения, а затем вы можете распространить этот метод на большие языковые модели.
Другими словами, после того как мы изучили большую языковую модель, мы можем искать в модели некоторые элементарные значения, которые она содержит, а затем попытаться открыть их. Вы обнаружите, что большая языковая модель на самом деле имеет много слоев.
На начальных уровнях возникает явление, называемое "устранением неоднозначности слов". Например, в английском языке есть слово "left", которое имеет значение как "повернуть налево", так и прошедшее время от "уходить", и его конкретное значение зависит от контекста до и после него, поэтому большая языковая модель завершает устранение неоднозначности слов в первых нескольких слоях.
В середине вы обнаружите, что появляются некоторые новые значения. Тогда мы подумали, что одна забавная вещь называется "преобразование единиц", которая активируется, когда нужно преобразовать километры в мили или температуру из градусов Фаренгейта в градусы Цельсия, это значение открывается, и вы можете найти много элементарных значений аналогичного уровня, следуя этому пути.
Когда вы поднимаетесь еще выше, вы даже обнаружите, что в этих элементарных значениях существует закономерность, которая заключается в том, что они активируются, когда в контексте появляется повторяющееся значение, и вы можете использовать этот метод для открытия больших и малых языковых моделей. Конечно, эти идеи не совсем новы, они уже имеют некоторую историю в визуальных моделях, например, подобные исследования начались с Мэтью Зейлера.
«Кремниевая долина 101»: Следуя этой логике, не означает ли это, что если мы знаем, как она частично работает, мы можем провести много инженерных оптимизаций?
Чен Юбэй: Да, это очень хороший вопрос. Я думаю, что одно из самых высоких требований к любой теории - это возможность руководить практикой, поэтому когда мы работали над языковыми моделями и словарными представлениями, одной из целей было понять, можем ли мы оптимизировать эти модели после их понимания. На самом деле, это возможно.
Приведу пример: если вы найдете элементарное значение в большой языковой модели, которое активируется при виде определенного типа элементарного значения, этот нейрон может быть использован в качестве дискриминатора, и вы можете использовать его для выполнения некоторых задач. Изменяя эти элементарные значения, можно регулировать предвзятость модели.
То есть, если я могу его обнаружить, я могу его настроить. Недавно Anthropic провела подобную работу, найдя некоторые потенциальные предубеждения в языковых моделях, а затем внеся некоторые изменения, чтобы сделать модель более справедливой и безопасной.
«Кремниевая долина 101»: Я видел, что в прошлом году OpenAI также провела исследование, используя GPT4 для объяснения работы GPT2, чтобы понять, как работает GPT2. Например, они обнаружили, что при ответе на все вопросы, связанные с американской историей около 1800 года, активируется 12-й нейрон 5-го ряда, а при ответе на китайском языке - 13-й нейрон 12-го ряда.
Если отключить нейрон, отвечающий за китайский язык, его способность понимать китайский язык значительно снизится. Однако чем дальше нейроны, например, когда нейроны достигают примерно 2000-го ряда, общая достоверность уже значительно снижается. Обратили ли вы внимание на это исследование?
Чен Юбэй: Я еще не читал эту статью, но этот метод очень похож на операцию на нейронах мозга. Это все равно что если бы у вас была нейронная сеть, которая в некотором смысле может найти локальное существование, а не полностью рассеянное, тогда вы можете выполнить с ней некоторые операции. Например, если вы отключите определенный нейрон, вы можете считать, что определенная часть его способностей относительно потеряна.
С людьми происходит то же самое, например, у человека, перенесшего операцию по поводу эпилепсии, могут возникнуть некоторые языковые нарушения, но это не сильно влияет на другие функции организма, что в принципе похоже.
«Кремниевая долина 101»: OpenAI и Anthropic сейчас исследуют интерпретируемость больших моделей, в чем разница между вашими исследованиями и их?
Чен Юбэй: На самом деле никто не знает, будут ли успешны исследования моделей белого ящика в будущем, я раньше обсуждал это со своим научным руководителем, но общее мнение заключается в том, что это стоит попробовать. Если мы вернемся к этому, то то, что мы хотим сделать в нашем исследовании, - это на самом деле понять искусственный интеллект и реконструировать его через наше понимание, чтобы в конечном итоге создать что-то принципиально иное. Я думаю, что наблюдение, или интерпретируемость, - это просто средство.
Другими словами, открытие этих моделей, проведение этих экспериментов и внесение некоторых корректировок в модели - все это, на мой взгляд, средства, которые мы пытаемся использовать в процессе понимания, но действительно важным для моделей белого ящика является возвращение к самому сигналу. Потому что, будь то человеческий мозг или машина, сущность их обучения обусловлена сигналом.
В нашем мире существуют некоторые структуры, и они должны учиться через эти структуры, и именно эти структуры они изучают. Можем ли мы найти закономерности, лежащие в основе этих структур, а также некоторые математические инструменты для их представления, а затем реорганизовать их, чтобы создать другую модель? Если это можно сделать, я думаю, это может привести к ожиданиям повышения надежности, безопасности и достоверности наших систем.
Кроме того, это повысит ее эффективность. Это похоже на то, как после появления парового двигателя появилась термодинамика, которая поддержала его превращение из чисто ремесленной дисциплины в науку. Точно так же сегодня мы как будто впервые получили паровой двигатель для данных, от полного непонимания наших данных до того, что теперь мы наконец можем создать некоторые алгоритмы ИИ, которые извлекают закономерности из данных.
«Кремниевая долина 101»: Значит, она будет более энергоэффективной.
Чен Юбэй: Говоря об энергоэффективности, я могу привести несколько интересных примеров. Первый момент, безусловно, заключается в энергосбережении, поскольку мозг эквивалентен лампочке мощностью 20 Вт, а современные суперкомпьютеры могут потреблять более миллиона ватт.
Во-вторых, если мы посмотрим на эволюцию различных живых существ в природе, то увидим, что эффективность их эволюции на самом деле очень высока. Например, существует особый вид пауков, называемый Jumping Spider, у которого всего несколько миллионов нейронов, но он способен создавать очень сложные трехмерные нити для ловли своей добычи.
И самое интересное, на мой взгляд, - это эффективность использования данных человеком. Объем данных Llama3 сейчас достиг примерно 13 триллионов токенов. Но сколько данных человек может получить за всю свою жизнь? Предположим, что мы можем получать 30 кадров в секунду, 12 часов в день, в течение 20 лет, тогда мы получим около 10 миллиардов токенов, и примерно столько же можно получить в виде текста, что намного меньше, чем у больших моделей.
Тогда возникает вопрос: как человеку удается достичь такой сильной способности к обобщению с таким небольшим объемом данных? Это то, что я считаю удивительным в эффективности человеческого мозга.
«Кремниевая долина 101»: Что сложнее - раскрыть, как работают большие модели, или раскрыть, как работает человеческий мозг? Мне кажется, что и то, и другое очень сложно.
Чен Юбэй: Оба имеют свои сложности, но методы схожи. Независимо от того, идет ли речь о человеческом мозге или о большой языковой модели, мы пытаемся наблюдать за ней, смотреть, на что она реагирует.
Этот метод можно увидеть еще в исследованиях зрительной коры, проведенных лауреатами Нобелевской премии по физиологии Дэвидом Хьюбелом и Торстеном Визелом в 80-х годах прошлого века. Они нашли так называемую Simple Cell и попытались изучить, какие нейроны возбуждаются, когда человек видит что-то, анализируя различные состояния реакции нейронов при просмотре разных вещей, например, когда они совсем не реагируют, а когда очень возбуждены, а затем они нашли рецептивное поле нейронов.