Até 2028, todos os dados textuais de alta qualidade na internet terão sido esgotados, e a afirmação de que as empresas de IA estão enfrentando uma escassez de dados é, sem dúvida, um tópico quente na indústria de IA recentemente. Como obter mais dados e mais poder computacional são os problemas mais preocupantes para as empresas de IA atualmente. Sobre isso, o ex-CEO do Google, Eric Schmidt, fez uma declaração surpreendente em um discurso na Universidade de Stanford em 14 de agosto, sugerindo que as startups de IA poderiam primeiro roubar propriedade intelectual usando ferramentas de IA e depois contratar advogados para lidar com disputas legais.
Eric Schmidt usou o TikTok, que está constantemente envolto em controvérsias, como exemplo: "Se o TikTok for banido, sugiro que cada um de vocês faça uma cópia do TikTok, roube todos os usuários, roube toda a música, coloque as preferências nele, faça esse programa nos próximos 30 segundos e o lance". Ele explicou ainda: "Se você é um empreendedor do Vale do Silício, o que você faria é, se o produto decolar, contratar um monte de advogados para limpar a bagunça, mas se ninguém usar seu produto, não importa se você roubou todo o conteúdo".
Deve-se dizer que, como ex-CEO do Google, a receita oferecida por Eric Schmidt realmente incorpora o "espírito do Vale do Silício". Vale lembrar que apenas algumas semanas atrás, a revista The Economist publicou um artigo intitulado "As empresas de IA logo esgotarão a maioria dos dados da internet", apontando que até 2028, todos os dados textuais de alta qualidade na internet terão sido esgotados, e os conjuntos de dados de aprendizado de máquina podem esgotar todos os "dados linguísticos de alta qualidade" até 2026.
Os dados sintéticos foram anteriormente considerados pela indústria como uma solução eficaz. Já que os dados produzidos por humanos não conseguem acompanhar as necessidades de iteração dos grandes modelos de IA, por que não usar diretamente dados gerados por IA? No entanto, um artigo publicado na Nature no final de julho confirmou que usar conjuntos de dados gerados por IA para treinar grandes modelos contamina suas saídas e não pode evitar o problema do "colapso do modelo". Com a publicação deste artigo, as empresas de IA certamente serão mais cautelosas ao usar dados sintéticos.
No entanto, conjuntos de dados de código aberto como Common Crawl e The Pile já alimentaram muitos modelos grandes conhecidos e desconhecidos, como GPT-4 e Gemini. A situação atual é que os bancos de dados gratuitos, de código aberto e de qualidade garantida já foram quase totalmente explorados, enquanto dados que requerem pagamento estão disponíveis em todos os lugares, como X, Reddit e várias organizações de mídia que obviamente ficariam muito felizes em vender seus dados.
Ao mesmo tempo em que Eric Schmidt sugeria que startups de IA roubassem dados, a Nature revelou outra grande notícia: um grande grupo de editoras acadêmicas, representadas por Taylor & Francis e Wiley, já ofereceu acesso pago aos seus artigos para empresas como a Microsoft, para que esta última possa usar artigos de pesquisa relevantes para treinar grandes modelos. O problema é que as startups de IA, que tentam economizar cada centavo, geralmente não estão dispostas a pagar por dados.
Para uma startup de IA, os custos operacionais consistem principalmente em poder computacional, recursos humanos e dados. Antes que a AGI seja realmente alcançada, contratar cientistas e programadores de IA para treinar IA é um trabalho essencial, e comprar placas de computação da NVIDIA também é uma despesa fixa, afinal, as startups de IA não podem simplesmente roubar chips das fábricas da TSMC. Na verdade, a sugestão de Eric Schmidt de que as startups de IA podem primeiro roubar dados e depois resolver problemas com advogados prova que ele realmente foi uma força importante no crescimento do Google como gigante tecnológico e é uma pessoa qualificada do Vale do Silício.
Há um ditado clássico no Vale do Silício: "Fake it until you make it", que se traduz como "Finja até conseguir". Desde a fundação da Apple por Jobs no século passado, passando por Zuckerberg construindo a rede social, até Musk criando a Tesla, gerações de pessoas do Vale do Silício têm sido guiadas por este ditado para construir seus grandes negócios.
Primeiro, exagerar suas ideias, vender uma boa história aos investidores, atrair capital e talentos, e então trabalhar duro para alcançar os objetivos e finalmente realizá-los - esta é a receita dos empreendedores do Vale do Silício. Exagerar o futuro, encobrir falhas, fabricar dados e ignorar o senso comum são práticas comuns no Vale do Silício. Por exemplo, o "espírito pirata" frequentemente mencionado por Jobs não é nada mais do que focar nos objetivos, usar todos os meios necessários, quebrar convenções e até mesmo deixar a moralidade de lado.
Atualmente, o maior desafio para os empreendedores de IA é sobreviver. Com o declínio da febre de investimentos em IA e o surgimento da teoria da bolha da IA, a atitude dos investidores em relação às startups de IA não só não é mais frenética, mas está se tornando cada vez mais cautelosa, tornando mais difícil para elas obter financiamento. Nessa situação, apenas as startups que podem apresentar modelos de grande escala com melhor desempenho podem obter fundos para manter sua existência.
Se não quebrarem as convenções e continuarem seguindo o caminho tradicional, o resultado será serem ultrapassadas por concorrentes que ousam tomar caminhos não convencionais. Portanto, as palavras de Eric Schmidt são "palavras de ouro" para as startups de IA. Se o produto falhar, a empresa naturalmente terá que fechar as portas, e ninguém virá buscar compensação por violação de direitos; mas uma vez que decolarem, as empresas com dinheiro também podem usar "acordos judiciais" para resolver problemas.
Na verdade, antes de Eric Schmidt fazer essas declarações surpreendentes, já havia muitas startups de IA praticando a abordagem de "roubar" dados. Os "tempos turbulentos" já chegaram, Eric Schmidt, como um magnata do Vale do Silício, apenas reconheceu publicamente essa realidade agora. Afinal, é quase inevitável que no futuro as startups de IA, com sua sede insaciável por dados, usem meios técnicos para quebrar as defesas dos proprietários de dados, enquanto estes últimos constroem "fortalezas" em resposta.