Controverse sur les données d'IA : Pourquoi les géants de la Silicon Valley soutiennent-ils l'« emprunt » d'informations par les entreprises ?

Jusqu'en 2028, toutes les données textuelles de haute qualité sur Internet seront épuisées, et l'affirmation selon laquelle les fabricants d'IA sont confrontés à une pénurie de données est sans aucun doute un sujet brûlant dans l'industrie de l'IA récemment. Comment obtenir plus de données et plus de puissance de calcul sont devenus les problèmes les plus préoccupants pour les fabricants d'IA aujourd'hui. À ce sujet, l'ancien PDG de Google, Eric Schmidt, a fait une déclaration surprenante lors d'un discours à l'Université de Stanford le 14 août, suggérant que les startups d'IA pourraient d'abord voler la propriété intellectuelle à l'aide d'outils d'IA, puis embaucher des avocats pour gérer les litiges juridiques.

Eric Schmidt a pris l'exemple de TikTok, qui est constamment embourbé dans la controverse, "Si TikTok est interdit, je vous suggère à chacun de faire une copie de TikTok, de voler tous les utilisateurs, de voler toute la musique, d'y mettre les préférences, de créer ce programme en 30 secondes et de le publier". Il a ensuite expliqué : "Si vous êtes un entrepreneur de la Silicon Valley, ce que vous feriez, c'est que si le produit décolle, vous embaucherez une armée d'avocats pour nettoyer les dégâts, mais si personne n'utilise votre produit, peu importe si vous avez volé tout le contenu."

Il faut dire qu'en tant qu'ancien PDG de Google, la prescription d'Eric Schmidt est certainement empreinte de "l'esprit de la Silicon Valley". Il faut savoir que quelques semaines auparavant, le magazine The Economist, dans un article intitulé "Les entreprises d'IA épuiseront bientôt la plupart des données Internet", indiquait que d'ici 2028, toutes les données textuelles de haute qualité sur Internet seraient épuisées, et que les ensembles de données d'apprentissage automatique pourraient épuiser toutes les "données linguistiques de haute qualité" avant 2026.

Les données synthétiques étaient auparavant considérées par l'industrie comme une solution efficace. Puisque les données produites par les humains ne peuvent pas suivre le rythme des besoins d'itération des grands modèles d'IA, pourquoi ne pas utiliser directement les données générées par l'IA ? Cependant, un article publié dans Nature fin juillet a confirmé que l'utilisation d'ensembles de données générés par l'IA pour entraîner de grands modèles polluerait leur sortie et ne pourrait pas éviter le problème de "l'effondrement du modèle". Avec la publication de cet article, les fabricants d'IA seront inévitablement plus prudents quant à l'utilisation de données synthétiques.

Cependant, des ensembles de données open source tels que Common Crawl et The Pile ont déjà nourri de nombreux grands modèles connus ou inconnus comme GPT-4 et Gemini. La situation actuelle est que les bases de données gratuites, open source et de qualité garantie ont déjà été épuisées, tandis que les données payantes sont disponibles partout, comme X, Reddit, et divers médias d'information qui sont évidemment très désireux de vendre leurs propres données.

Au moment même où Eric Schmidt suggérait aux startups d'IA de voler des données, Nature a révélé une autre grande nouvelle : un grand nombre d'éditeurs universitaires, représentés par Taylor&Francis et Wiley, ont déjà offert à des entreprises comme Microsoft l'opportunité d'accéder à leurs articles moyennant paiement, afin que ces dernières puissent utiliser les articles de recherche pertinents pour entraîner de grands modèles. Le problème est que les startups d'IA, qui cherchent à économiser chaque centime, sont souvent réticentes à payer pour les données.

Pour une startup d'IA, les coûts d'exploitation se résument à la puissance de calcul, aux ressources humaines et aux données. Avant que l'AGI ne soit vraiment réalisée, embaucher des scientifiques et des programmeurs en IA pour entraîner l'IA est un travail indispensable, et acheter des cartes de calcul à NVIDIA est également une dépense obligatoire, car les startups d'IA ne peuvent évidemment pas voler des puces dans les usines de TSMC. En fait, les propos d'Eric Schmidt selon lesquels les startups d'IA peuvent d'abord voler des données puis résoudre les problèmes avec des avocats prouvent précisément qu'il a effectivement été un acteur important dans la croissance de Google en tant que géant technologique et qu'il est un véritable homme de la Silicon Valley.

Il y a un dicton classique dans la Silicon Valley : "Fake it until you make it", ce qui se traduit par "Faites semblant jusqu'à ce que vous y arriviez". De la création d'Apple par Jobs au siècle dernier, à la construction du réseau social par Zuckerberg, en passant par la création de Tesla par Musk, des générations d'hommes de la Silicon Valley ont bâti leurs grandes entreprises sous la direction de ce dicton.

Vanter d'abord ses idées, vendre une belle histoire aux investisseurs, attirer le capital et les talents, puis s'efforcer d'atteindre les objectifs et finalement les réaliser, c'est le secret des entrepreneurs de la Silicon Valley. Exagérer l'avenir, dissimuler les échecs, fabriquer des données et ignorer le bon sens sont monnaie courante dans la Silicon Valley. Par exemple, "l'esprit pirate" dont Jobs parlait souvent auparavant n'est-il pas simplement se concentrer sur l'objectif, utiliser tous les moyens nécessaires, briser les conventions, et même mettre la morale de côté ?

Actuellement, le plus grand défi pour les entrepreneurs en IA est la survie. Avec le reflux de la fièvre d'investissement dans l'IA et la montée de la théorie de la bulle de l'IA, l'attitude des investisseurs envers les startups d'IA n'est plus seulement moins enthousiaste, mais devient de plus en plus prudente, ce qui rend de plus en plus difficile pour elles d'obtenir des financements. Dans cette situation, seules les startups capables de produire de meilleurs grands modèles peuvent obtenir les fonds nécessaires pour maintenir leur existence.

Si l'on ne brise pas les conventions et que l'on continue à suivre les règles, le résultat sera d'être dépassé par des concurrents qui osent emprunter des chemins inhabituels. Donc, les paroles d'Eric Schmidt sont des "paroles d'or" pour les startups d'IA. Si le produit échoue, l'entreprise elle-même devra naturellement fermer ses portes, et personne ne viendra demander une indemnisation pour violation de droits ; mais une fois qu'elle aura décollé, l'entreprise qui aura de l'argent pourra également résoudre les problèmes par des "transactions de plaidoirie".

En fait, avant qu'Eric Schmidt ne prononce ces paroles surprenantes, de nombreuses startups d'IA pratiquaient déjà le "vol" de données. Le "chaos" est déjà arrivé, Eric Schmidt, en tant que grand patron de la Silicon Valley, ne fait que reconnaître publiquement cette réalité maintenant. Après tout, il est presque inévitable que les startups d'IA, qui ont une soif insatiable de données, utilisent des moyens techniques pour briser les défenses des propriétaires de données, et que ces derniers érigent des "forteresses" en réponse.

Controverse sur les données d'IA : Pourquoi les géants de la Silicon Valley soutiennent-ils l'« emprunt » d'informations par les entreprises ?

Les temps troublés sont en réalité déjà arrivés, cette fois on ne fait qu'admettre ouvertement ce fait.