Hasta 2028, todos los datos textuales de alta calidad en Internet se habrán agotado, y la afirmación de que los fabricantes de IA están enfrentando una escasez de datos es sin duda un tema candente en la industria de la IA recientemente. Cómo obtener más datos y más poder computacional son los problemas más apremiantes para los fabricantes de IA en la actualidad. Al respecto, el ex CEO de Google, Eric Schmidt, hizo una declaración sorprendente en su discurso en la Universidad de Stanford el 14 de agosto, sugiriendo que las startups de IA podrían primero robar propiedad intelectual usando herramientas de IA y luego contratar abogados para manejar las disputas legales.
Eric Schmidt usó como ejemplo a TikTok, que ha estado envuelto en controversia: "Si TikTok es prohibido, les sugiero a cada uno de ustedes que hagan una copia de TikTok, roben todos los usuarios, roben toda la música, pongan las preferencias, hagan este programa en los próximos 30 segundos y láncenlo". Luego explicó más: "Si eres un emprendedor de Silicon Valley, lo que harías es, si el producto despega, contratar a un montón de abogados para limpiar el desastre, pero si nadie usa tu producto, no importa si robaste todo el contenido".
Hay que decir que, como ex CEO de Google, la receta que Eric Schmidt ofrece ciertamente encarna el "espíritu de Silicon Valley". Hace solo unas semanas, la revista The Economist señaló en un artículo titulado "Las empresas de IA pronto agotarán la mayoría de los datos de Internet" que todos los datos textuales de alta calidad en Internet se habrán agotado para 2028, y los conjuntos de datos de aprendizaje automático podrían agotar todos los "datos lingüísticos de alta calidad" antes de 2026.
Los datos sintéticos fueron previamente considerados por la industria como una solución efectiva; ya que los datos producidos por humanos no pueden seguir el ritmo de las necesidades de iteración de los grandes modelos de IA, ¿por qué no usar directamente datos generados por IA? Sin embargo, un artículo publicado en Nature a finales de julio confirmó que usar conjuntos de datos generados por IA para entrenar grandes modelos contaminaría sus resultados y no podría evitar el problema del "colapso del modelo". Con la publicación de este artículo, los fabricantes de IA serán inevitablemente más cautelosos sobre el uso de datos sintéticos.
Sin embargo, conjuntos de datos de código abierto como Common Crawl y The Pile ya han nutrido a numerosos modelos grandes conocidos y desconocidos como GPT-4 y Gemini. La situación actual es que las bases de datos gratuitas, de código abierto y de calidad garantizada ya se han agotado, mientras que los datos que requieren pago están disponibles en todas partes, como X, Reddit y varios medios de noticias que obviamente estarían encantados de vender sus propios datos.
Al mismo tiempo que Eric Schmidt sugería a las startups de IA que robaran datos, Nature reveló otra gran noticia: que un gran grupo de editores académicos, representados por Taylor & Francis y Wiley, ya han ofrecido a empresas como Microsoft acceso de pago a sus artículos para que puedan usar estos artículos de investigación para entrenar grandes modelos. El problema es que las startups de IA, que tratan de estirar cada centavo, a menudo no están dispuestas a pagar por los datos.
Para una startup de IA, los costos operativos se limitan a poder computacional, mano de obra y datos. Antes de que la AGI se convierta realmente en realidad, contratar científicos de IA y programadores para entrenar IA es un trabajo esencial, y comprar tarjetas de cómputo a NVIDIA también es un gasto fijo, ya que las startups de IA no pueden simplemente robar chips de las fábricas de TSMC. De hecho, la sugerencia de Eric Schmidt de que las startups de IA pueden robar datos primero y luego resolver problemas con abogados demuestra que realmente fue una fuerza impulsora importante detrás del crecimiento de Google hasta convertirse en un gigante tecnológico y es un verdadero hombre de Silicon Valley.
Hay un dicho clásico en Silicon Valley: "Fake it until you make it", que se traduce como "Finge hasta que lo logres". Desde Steve Jobs fundando Apple en el siglo pasado, hasta Mark Zuckerberg creando la red social, hasta Elon Musk estableciendo Tesla, generación tras generación de personas de Silicon Valley han forjado sus grandes carreras bajo la guía de este lema.
Primero alardear de tus ideas, vender una buena historia a los inversores, atraer capital y talento, y luego esforzarse por alcanzar los objetivos y finalmente lograrlos, este es el secreto de los emprendedores de Silicon Valley. Exagerar el futuro, ocultar fracasos, fabricar datos e ignorar el sentido común son comunes en Silicon Valley. Por ejemplo, el "espíritu pirata" que Steve Jobs solía mencionar no es más que enfocarse en los objetivos, usar todos los medios necesarios, romper las convenciones e incluso dejar de lado la moral.
Actualmente, el mayor desafío para los emprendedores de IA es la supervivencia. Con el reflujo de la fiebre de inversión en IA y el surgimiento de la teoría de la burbuja de la IA, la actitud de los inversores hacia las startups de IA ya no es frenética, sino cada vez más cautelosa, lo que hace que sea cada vez más difícil para ellos obtener financiación. En esta situación, solo las startups que puedan producir modelos grandes con mejor rendimiento podrán obtener los fondos para mantener su existencia.
Si no se rompen las convenciones y se sigue el camino habitual, el resultado será ser superado por competidores que se atreven a tomar caminos poco convencionales. Por lo tanto, las palabras de Eric Schmidt son "palabras de oro" para las startups de IA. Si el producto falla, la empresa naturalmente tendrá que cerrar sus puertas y nadie buscará compensación por infracción; pero una vez que despegue, la empresa con dinero en mano también puede resolver problemas mediante "acuerdos de litigio".
De hecho, antes de que Eric Schmidt hiciera estas sorprendentes declaraciones, ya había muchas startups de IA practicando la "apropiación" de datos. Los "tiempos turbulentos" ya han llegado, solo que Eric Schmidt, como líder de Silicon Valley, ahora reconoce públicamente esta realidad. Después de todo, es casi inevitable que las startups de IA con una sed insaciable de datos utilicen medios técnicos para romper las defensas de los propietarios de datos, y estos últimos construyan "fortalezas" en respuesta.