Hier ist die Übersetzung ins Deutsche:
Der Assistant Professor für Elektrotechnik und Computertechnik an der University of California, Davis, Chen Yubo, forscht im Bereich der "White-Box-Modelle". Darüber hinaus ist er auch Postdoktorand bei Yann LeCun, dem Turing-Preisträger und Chief AI Scientist bei Meta. In dieser Sendung sprach er mit uns über die neuesten Forschungsergebnisse zu White-Box-Modellen und teilte auch seine Erfahrungen mit dem Wissenschaftler Yann LeCun, der die Höhen und Tiefen der KI-Branche erlebt hat, aber immer noch rein und fokussiert geblieben ist.
Hier sind einige ausgewählte Auszüge aus dem Interview
01 Das menschliche Gehirn und große Modelle
Silicon Valley 101: Können Sie kurz Ihre aktuelle Forschung zu "White-Box-Modellen" vorstellen? Haben Sie bei Ihrer Forschung Möglichkeiten gefunden, die Ein- und Ausgabeprobleme von GPT zu erklären?
Chen Yubo: Ein großes Ziel in dieser Richtung ist es, das Deep Learning von einer rein empirischen Disziplin zu einer wissenschaftlichen Disziplin voranzutreiben, oder anders gesagt, Technik in Wissenschaft zu verwandeln, da sich die Technik derzeit schneller entwickelt als die Wissenschaft. Früher gab es ein Modell namens Worteinbettung (embedding), das einige Darstellungen von Sprache lernen konnte.
Damals gab es tatsächlich eine Frage: Die Leistung unserer Aufgaben hat sich verbessert, aber was genau hat zu dieser Verbesserung geführt? Also haben wir damals eine sehr frühe Arbeit gemacht, nämlich den Versuch, diese Wortdarstellungen zu öffnen. Wenn man sie öffnet, entdeckt man einige sehr interessante Phänomene.
Nehmen wir zum Beispiel das Wort "Apfel". Man kann darin einige Grundbedeutungen finden. Eine Bedeutung könnte für Obst stehen, eine andere für Dessert, und wenn man weiter gräbt, findet man Bedeutungen für Technologie und Produkte, die sich natürlich auf die Produkte des Unternehmens Apple beziehen. Man stellt also fest, dass man entlang eines Wortes diese Grundbedeutungen finden kann, und dann kann man diese Methode auf große Sprachmodelle ausdehnen.
Das heißt, wenn wir ein großes Sprachmodell gelernt haben, können wir im Modell nach den darin enthaltenen Grundbedeutungen suchen und versuchen, sie zu öffnen. Man wird feststellen, dass ein großes Sprachmodell tatsächlich viele Schichten hat.
In den unteren Schichten tritt ein Phänomen namens "Wortdisambiguierung" auf. Im Englischen gibt es zum Beispiel das Wort "left", das sowohl die Bedeutung von "links abbiegen" als auch die Vergangenheitsform von "verlassen" hat. Die genaue Bedeutung hängt vom Kontext ab, und das große Sprachmodell führt in den ersten Schichten die Wortdisambiguierung durch.
In der mittleren Phase werden Sie feststellen, dass neue Bedeutungen entstehen. Wir fanden damals eine interessante Sache namens "Einheitenumrechnung". Sobald Kilometer in Meilen oder Temperaturen von Fahrenheit in Celsius umgerechnet werden müssen, wird diese Bedeutung aktiviert und geöffnet. Man kann diesem Weg folgen und viele ähnliche Grundbedeutungen auf diesem Niveau finden.
Wenn man noch weiter nach oben geht, entdeckt man sogar eine Regelmäßigkeit in diesen Grundbedeutungen. Diese Regelmäßigkeit besteht darin, dass sie aktiviert wird, wenn im Kontext eine wiederholte Bedeutung auftritt. Auf diese Weise können Sie große und kleine Sprachmodelle öffnen. Natürlich sind diese Ideen nicht völlig neu, sie haben in visuellen Modellen tatsächlich schon eine gewisse Geschichte, zum Beispiel gab es seit Matthew Zeiler ähnliche Erkundungen.
Silicon Valley 101: Wenn wir dieser Denkweise folgen, können wir dann, wenn wir wissen, wie es teilweise funktioniert, es technisch in vielerlei Hinsicht optimieren?
Chen Yubo: Ja, das ist eine sehr gute Frage. Ich denke, eine hohe Anforderung an jede Theorie ist, dass sie die Praxis anleiten kann. Als wir damals an Sprachmodellen und Wortdarstellungen arbeiteten, hatten wir auch das Ziel, dass wir, wenn wir es verstehen, diese Modelle umgekehrt optimieren können. Das ist tatsächlich möglich.
Ein Beispiel: Wenn Sie in einem großen Sprachmodell eine Grundbedeutung finden, die aktiviert wird, wenn sie eine bestimmte Art von Grundbedeutung sieht, dann kann dieses Neuron als Diskriminator verwendet werden. Sie können dieses Ding verwenden, um einige Aufgaben zu erledigen. Durch die Änderung dieser Grundbedeutungen können Sie die Voreingenommenheit des Modells anpassen.
Das heißt, wenn ich es entdecken kann, kann ich es anpassen. Kürzlich hat Anthropic eine ähnliche Arbeit gemacht, bei der sie mögliche Voreingenommenheiten in Sprachmodellen gefunden und einige Änderungen vorgenommen haben, um das Modell fairer und sicherer zu machen.
Silicon Valley 101: Ich habe gesehen, dass OpenAI letztes Jahr auch eine Studie durchgeführt hat, bei der GPT-4 verwendet wurde, um GPT-2 zu erklären und zu sehen, wie GPT-2 funktioniert. Zum Beispiel fanden sie heraus, dass bei GPT-2 das 12. Neuron in der 5. Reihe aktiviert wird, wenn es um Fragen zur amerikanischen Geschichte um 1800 geht, und das 13. Neuron in der 12. Reihe aktiviert wird, wenn es um Chinesisch geht.
Wenn man das Neuron für Chinesisch ausschaltet, würde sein Verständnis für Chinesisch drastisch abnehmen. Je weiter hinten die Neuronen jedoch sind, zum Beispiel wenn die Neuronen um die 2000. Reihe herum sind, desto mehr nimmt ihre Glaubwürdigkeit insgesamt ab. Haben Sie diese Studie bemerkt?
Chen Yubo: Ich habe diesen Artikel noch nicht gelesen, aber diese Methode ähnelt sehr einer Operation an den Neuronen des Gehirns. Es ist, als ob man jetzt ein neuronales Netzwerk hat, und dieses Netzwerk in gewissem Sinne eine lokale Existenz finden kann, anstatt völlig verstreut zu sein. Dann kann man einige Operationen daran vornehmen. Wenn man zum Beispiel ein bestimmtes Neuron entfernt, kann man annehmen, dass eine bestimmte Fähigkeit relativ verloren gegangen ist.
Bei Menschen ist es ähnlich. Zum Beispiel kann eine Person mit Epilepsie nach einer Operation einige Sprachstörungen haben, aber andere Körperfunktionen werden nicht sehr beeinflusst. Das Prinzip scheint ähnlich zu sein.
Silicon Valley 101: OpenAI und Anthropic forschen jetzt alle an der Interpretierbarkeit von großen Modellen. Gibt es Unterschiede zwischen Ihrer Forschung und ihrer?
Chen Yubo: Ob die Forschung zu White-Box-Modellen in Zukunft erfolgreich sein wird, weiß eigentlich niemand. Ich habe auch mit meinem Betreuer darüber diskutiert, aber wir sind uns einig, dass es sich lohnt, es zu versuchen. Wenn wir zu diesem Bereich zurückkehren, wollen wir mit unserer Forschung eigentlich die künstliche Intelligenz verstehen und sie durch unser Verständnis rekonstruieren, um grundlegend etwas Anderes aufzubauen. Beobachtung, also Interpretierbarkeit, ist meiner Meinung nach nur ein Mittel zum Zweck.
Das heißt, diese Modelle zu öffnen, diese Experimente durchzuführen und einige Anpassungen an den Modellen vorzunehmen, all das sind meiner Meinung nach Mittel, die wir im Prozess des Verstehens versuchen. Aber das wirklich Wichtige bei White-Box-Modellen ist, zum Signal selbst zurückzukehren. Denn egal ob es sich um das menschliche Gehirn oder Maschinen handelt, das Wesen ihres Lernens liegt in den Signalen.
Es gibt Strukturen in unserer Welt, und sie müssen durch diese Strukturen lernen und lernen genau diese Strukturen. Können wir die Regeln hinter diesen Strukturen finden und einige mathematische Werkzeuge zu ihrer Darstellung, und dann diese Dinge neu zusammensetzen, um ein andersartiges Modell zu konstruieren? Wenn dies gelingen würde, denke ich, könnte es Erwartungen in Bezug auf die Verbesserung der Robustheit, Sicherheit und Zuverlässigkeit unserer Systeme bringen.
Außerdem würde sich ihre Effizienz verbessern. Es ist ein bisschen wie bei der Dampfmaschine, die zuerst kam, und dann entstand die Theorie der Thermodynamik, die sie von einer reinen Handwerkskunst zu einer Wissenschaft machte. Ebenso haben wir heute zum ersten Mal eine Art Dampfmaschine für Daten. Von früher, als wir unsere Daten nicht verstanden, bis jetzt, wo wir endlich beginnen können, einige KI-Algorithmen zu entwickeln, die die Muster in den Daten erfassen.
Silicon Valley 101: Also wäre es energieeffizienter.
Chen Yubo: Wenn es um Energieeffizienz geht, kann ich ein paar interessante Beispiele nennen. Der erste Punkt ist definitiv die Energieeffizienz, denn das Gehirn entspricht einer 20-Watt-Glühbirne, während heutige Supercomputer möglicherweise über eine Million Watt verbrauchen.
Der zweite Punkt ist, dass wenn wir die Evolution verschiedener Lebewesen in der Natur betrachten, ihre Evolutionseffizienz tatsächlich sehr hoch ist. Es gibt zum Beispiel eine besondere Spinne namens Jumping Spider, die nur ein paar Millionen Neuronen hat, aber sehr komplexe dreidimensionale Gruppenleitungen machen kann, um ihre Beute zu fangen.
Und was ich am interessantesten finde, ist die Effizienz der menschlichen Datennutzung. Llama3 hat jetzt etwa 13 Billionen Token an Daten. Aber wie viele Daten kann ein Mensch in seinem Leben tatsächlich aufnehmen? Angenommen, wir können 30 Bilder pro Sekunde aufnehmen, 12 Stunden pro Tag, 20 Jahre lang, dann können wir etwa 10 Milliarden Token erhalten, und die Menge an Text, die wir erhalten können, ist ungefähr gleich. Das ist viel weniger als bei großen Modellen.
Die Frage ist also, wie der Mensch mit so wenig Daten eine so starke Generalisierungsfähigkeit erreichen kann? Das ist ein Punkt, der mich in Bezug auf die Effizienz des menschlichen Gehirns sehr fasziniert.
Silicon Valley 101: Was ist schwieriger: herauszufinden, wie große Modelle funktionieren, oder wie das menschliche Gehirn funktioniert? Für mich klingt beides sehr schwierig.
Chen Yubo: Beides hat seine eigenen Schwierigkeiten, aber die Methoden sind ähnlich. Ob es sich um das menschliche Gehirn oder um große Sprachmodelle handelt, wir versuchen, sie zu beobachten und zu sehen, worauf sie reagieren.
Diese Methode kann man tatsächlich schon in der Forschung von David Hubel und Torsten Weisel über den visuellen Cortex sehen, die dafür in den 1980er Jahren den Nobelpreis für Physiologie erhielten. Sie fanden eine Art von Simple Cell und versuchten zu untersuchen, bei welchen Dingen diese Neuronen Impulse produzierten. Sie analysierten die unterschiedlichen Reaktionszustände der Neuronen beim Betrachten verschiedener Dinge, zum Beispiel wann sie überhaupt nicht reagierten und wann sie sehr erregt waren. Dann fanden sie das rezeptive Feld der Neuronen.