Bis 2028 werden alle hochwertigen Textdaten im Internet aufgebraucht sein, und die Behauptung, dass KI-Unternehmen in einer Datenkrise stecken, ist zweifellos ein heißes Thema in der KI-Branche in letzter Zeit. Wie man mehr Daten und mehr Rechenleistung erhält, sind die beiden größten Kopfschmerzen für KI-Unternehmen. Dazu äußerte sich der ehemalige Google-CEO Eric Schmidt in einer überraschenden Rede an der Stanford University am 14. August. Er schlug vor, dass KI-Startups zunächst geistiges Eigentum mit KI-Tools stehlen und dann Anwälte einstellen könnten, um rechtliche Streitigkeiten zu regeln.
Eric Schmidt nahm TikTok als Beispiel, das ständig in Kontroversen verwickelt ist: "Wenn TikTok verboten wird, schlage ich vor, dass jeder von euch eine Kopie von TikTok macht, alle Nutzer stiehlt, alle Musik stiehlt, die Präferenzen einbaut, dieses Programm in den nächsten 30 Sekunden erstellt und es veröffentlicht". Er erklärte weiter: "Wenn Sie ein Silicon Valley-Unternehmer sind, würden Sie, wenn das Produkt abhebt, eine Menge Anwälte einstellen, um die Scherben aufzusammeln, aber wenn niemand Ihr Produkt benutzt, spielt es keine Rolle, wenn Sie den gesamten Inhalt gestohlen haben."
Man muss sagen, dass dieses Rezept, das Eric Schmidt als ehemaliger Google-CEO vorschlägt, wirklich den "Silicon Valley-Geist" verkörpert. Bekanntlich wies das Magazin "The Economist" erst vor wenigen Wochen in einem Artikel mit dem Titel "KI-Unternehmen werden bald die meisten Internetdaten aufgebraucht haben" darauf hin, dass bis 2028 alle hochwertigen Textdaten im Internet aufgebraucht sein werden und maschinelle Lerndatensätze möglicherweise bis 2026 alle "hochwertigen Sprachdaten" erschöpft haben werden.
Synthetische Daten wurden zuvor von der Branche als effektive Lösung angesehen. Da von Menschen produzierte Daten nicht mit den Bedürfnissen der Iteration von KI-Großmodellen Schritt halten können, könnte man stattdessen direkt KI-generierte Daten verwenden. Ein Ende Juli in "Nature" veröffentlichtes Paper bestätigte jedoch, dass die Verwendung von KI-generierten Datensätzen zum Training von Großmodellen deren Ausgabe verunreinigt und das Problem des "Modellkollapses" nicht vermeiden kann. Nach der Veröffentlichung dieses Papers werden KI-Unternehmen zwangsläufig vorsichtiger bei der Verwendung synthetischer Daten sein.
Nur haben Open-Source-Datenbanken wie Common Crawl und The Pile bereits bekannte und unbekannte Großmodelle wie GPT-4 und Gemini genährt. Die aktuelle Situation ist, dass kostenlose, Open-Source-Datenbanken mit garantierter Qualität bereits erschöpft sind, während kostenpflichtige Daten überall verfügbar sind. X, Reddit und verschiedene Nachrichtenmedien sind offensichtlich sehr daran interessiert, ihre eigenen Daten zu verkaufen.
Zur gleichen Zeit, als Eric Schmidt KI-Startups vorschlug, Daten zu stehlen, enthüllte "Nature" eine weitere große Neuigkeit: Eine große Gruppe akademischer Verlage, vertreten durch Taylor&Francis und Wiley, hat bereits Unternehmen wie Microsoft kostenpflichtigen Zugang zu ihren Papern gewährt, damit letztere relevante wissenschaftliche Arbeiten zum Training von Großmodellen verwenden können. Das Problem ist, dass KI-Startups, die jeden Cent zweimal umdrehen müssen, oft nicht bereit sind, für Daten zu bezahlen.
Für ein KI-Startup bestehen die Betriebskosten hauptsächlich aus Rechenleistung, Personal und Daten. Bevor AGI wirklich realisiert ist, ist die Einstellung von KI-Wissenschaftlern und Programmierern zum Training von KI unerlässlich, und der Kauf von Rechenkarten von NVIDIA ist ebenfalls eine harte Ausgabe, da KI-Startups unmöglich Chips aus den Fabriken von TSMC stehlen können. Tatsächlich beweist Eric Schmidts Aussage, dass KI-Startups zuerst Daten stehlen und dann Anwälte zur Problemlösung einsetzen können, dass er wirklich eine wichtige treibende Kraft hinter Googles Wachstum zu einem Technologieriesen und ein qualifizierter Silicon Valley-Bewohner ist.
Im Silicon Valley gibt es ein klassisches Sprichwort: "Fake it until you make it". Von Steve Jobs' Gründung von Apple im letzten Jahrhundert über Zuckerbergs Aufbau des sozialen Netzwerks bis hin zu Musks Schaffung von Tesla haben Generationen von Silicon Valley-Bewohnern unter der Führung dieses Sprichworts große Karrieren gemacht.
Zuerst die eigenen Ideen anpreisen, den Investoren eine gute Geschichte verkaufen, Kapital und Talente anziehen und dann hart daran arbeiten, die Ziele zu erreichen und sie schließlich zu verwirklichen - das ist das Rezept der Silicon Valley-Unternehmer. Die Zukunft zu übertreiben, Misserfolge zu verbergen, Daten zu fälschen und den gesunden Menschenverstand zu ignorieren, ist im Silicon Valley gang und gäbe. Der "Piratengeist", den Jobs früher oft erwähnte, bedeutet nichts anderes, als sich auf Ziele zu konzentrieren, alle Mittel einzusetzen, Konventionen zu brechen und sogar die Moral beiseite zu lassen.
Gegenwärtig ist das größte Problem für KI-Unternehmer das Überleben. Mit dem Abklingen des KI-Investitionsbooms und dem Aufkommen der KI-Blasentheorie sind Investoren nicht nur nicht mehr enthusiastisch gegenüber KI-Startups, sondern werden zunehmend vorsichtiger, was es für sie schwieriger macht, Finanzierungen zu erhalten. In dieser Situation können nur Startups, die bessere Großmodelle vorweisen können, Mittel für ihr Fortbestehen erhalten.
Wenn man nicht aus der Reihe tanzt und weiterhin nach Schema F vorgeht, wird man von Konkurrenten überholt, die es wagen, unkonventionelle Wege zu gehen. Daher sind Eric Schmidts Worte für KI-Startups "goldene Ratschläge". Wenn das Produkt scheitert, muss das Unternehmen ohnehin schließen, und niemand wird Schadensersatz für Urheberrechtsverletzungen fordern. Aber wenn es durchstartet, kann ein Unternehmen mit Geld in der Tasche Probleme durch "Vergleichsverhandlungen" lösen.
Tatsächlich haben viele KI-Startups schon vor Eric Schmidts überraschenden Äußerungen die Praxis des "Datendiebstahls" umgesetzt. Die "chaotischen Zeiten" sind bereits angebrochen, nur hat Eric Schmidt als Silicon Valley-Größe jetzt öffentlich diese Realität anerkannt. Schließlich ist es fast unvermeidlich, dass KI-Startups mit ihrem unendlichen Durst nach Daten die Verteidigung der Datenbesitzer mit technischen Mitteln durchbrechen, während letztere "Festungen" errichten.