К 2028 году все высококачественные текстовые данные в Интернете будут исчерпаны, и утверждение о том, что производители ИИ сталкиваются с нехваткой данных, несомненно, является горячей темой в индустрии ИИ в последнее время. Как получить больше данных и вычислительных мощностей - это два самых насущных вопроса для производителей ИИ в настоящее время. По этому поводу бывший генеральный директор Google Эрик Шмидт сделал шокирующее заявление во время своего выступления в Стэнфордском университете 14 августа, предложив стартапам в области ИИ сначала украсть интеллектуальную собственность с помощью инструментов ИИ, а затем нанять юристов для решения юридических споров.
Эрик Шмидт привел в пример TikTok, который постоянно находится в центре споров: "Если TikTok запретят, я предлагаю каждому из вас сделать копию TikTok, украсть всех пользователей, украсть всю музыку, добавить предпочтения, создать эту программу за следующие 30 секунд и выпустить ее". Затем он продолжил объяснять: "Если вы предприниматель из Кремниевой долины, вы сделаете следующее: если продукт взлетит, вы наймете целую армию юристов, чтобы разобраться с последствиями, но если никто не использует ваш продукт, то не имеет значения, что вы украли весь контент".
Нельзя не отметить, что как бывший генеральный директор Google, рецепт, предложенный Эриком Шмидтом, действительно отражает "дух Кремниевой долины". Стоит отметить, что всего несколько недель назад журнал "Экономист" в статье под названием "Компании ИИ скоро исчерпают большую часть данных в Интернете" указал, что к 2028 году все высококачественные текстовые данные в Интернете будут исчерпаны, а наборы данных для машинного обучения могут исчерпать все "высококачественные языковые данные" до 2026 года.
Синтетические данные ранее считались эффективным решением в отрасли: если данных, производимых людьми, недостаточно для итераций крупных моделей ИИ, почему бы не использовать данные, сгенерированные ИИ напрямую. Однако статья, опубликованная в конце июля в журнале "Nature", подтвердила, что использование наборов данных, сгенерированных ИИ, для обучения крупных моделей загрязняет их выходные данные и не может избежать проблемы "коллапса модели". После выхода этой статьи производители ИИ, несомненно, будут более осторожны в использовании синтетических данных.
Однако такие открытые базы данных, как набор данных Common Crawl и корпус The Pile, уже питали множество известных и неизвестных крупных моделей, таких как GPT-4 и Gemini. Текущая ситуация такова, что бесплатные, открытые и качественные базы данных уже почти исчерпаны, в то время как платные данные доступны повсюду, например, X, Reddit и различные новостные СМИ, очевидно, очень рады продавать свои данные.
В то же время, когда Эрик Шмидт предложил стартапам в области ИИ воровать данные, "Nature" снова раскрыл большую новость: группа академических издателей, представленная Taylor&Francis и Wiley, уже предоставила таким компаниям, как Microsoft, возможность платного доступа к своим статьям, чтобы последние могли использовать соответствующие научные статьи для обучения крупных моделей. Проблема в том, что стартапы в области ИИ, которые стараются экономить каждую копейку, часто не хотят платить за данные.
Для стартапа в области ИИ операционные расходы в основном включают вычислительные мощности, человеческие ресурсы и данные. До тех пор, пока AGI не станет реальностью, наем ученых и программистов в области ИИ для обучения ИИ является необходимой работой, а покупка вычислительных карт у NVIDIA также является обязательными расходами, поскольку стартапы в области ИИ не могут просто украсть чипы с завода TSMC. На самом деле, слова Эрика Шмидта о том, что стартапы в области ИИ могут сначала украсть данные, а затем решить проблемы с помощью юристов, как раз доказывают, что он действительно был важным двигателем роста Google до технологического гиганта и является квалифицированным представителем Кремниевой долины.
В Кремниевой долине есть классическая поговорка: "Fake it until you make it", что в переводе означает "Притворяйся, пока не получится". От создания Apple Стивом Джобсом в прошлом веке до создания социальной сети Марком Цукербергом и создания Tesla Илоном Маском, поколение за поколением представителей Кремниевой долины руководствовались этой поговоркой, создавая свои огромные предприятия.
Сначала хвастаться своими идеями, продавать хорошую историю инвесторам, привлекать капитал и таланты, а затем усердно работать над достижением цели и в конечном итоге ее реализовывать - это секрет предпринимателей Кремниевой долины. Преувеличение будущего, сокрытие неудач, фальсификация данных и игнорирование здравого смысла - обычное дело в Кремниевой долине. Например, "пиратский дух", который ранее часто упоминал Стив Джобс, заключается в том, чтобы сосредоточиться на цели, использовать любые средства, нарушать правила и даже отбросить мораль в сторону.
В настоящее время самая большая проблема для предпринимателей в области ИИ - это выживание. С ослаблением инвестиционного бума в ИИ и ростом разговоров о пузыре ИИ, отношение инвесторов к стартапам в области ИИ не только перестало быть безумным, но и стало более осторожным, что усложнило получение финансирования. В такой ситуации только стартапы, которые могут представить более эффективные крупные модели, смогут получить средства для продолжения своего существования.
Если не нарушать правила и продолжать действовать по шаблону, результатом будет то, что конкуренты, готовые идти нетрадиционным путем, обгонят вас. Поэтому слова Эрика Шмидта для стартапов в области ИИ - это "золотые слова". Если продукт потерпит неудачу, компания естественным образом закроется, и никто не будет требовать компенсации за нарушение прав; но если компания взлетит, у нее будут деньги для решения проблем с помощью "сделок о признании вины".
На самом деле, еще до того, как Эрик Шмидт сделал это шокирующее заявление, уже многие стартапы в области ИИ практиковали "кражу" данных. "Смутные времена" уже наступили, просто теперь Эрик Шмидт, как лидер Кремниевой долины, публично признал эту реальность. В конце концов, почти неизбежное будущее - это то, что стартапы в области ИИ, имеющие бесконечную жажду данных, будут использовать технические средства для преодоления защиты владельцев данных, а последние будут строить "крепости" одну за другой.