AI數據爭議:矽谷大佬為何支持公司「借用」資訊?

動盪時期實際上已經降臨,這次不過是公開承認了這一事實。

到2028年網際網路上所有高品質的文本數據都將被使用完畢,以及AI廠商正陷入數據荒的說法,無疑是近期AI行業的熱點話題。如何獲得更多的數據與獲得更多算力,更是並列為當下AI廠商最為頭疼的問題。對此,谷歌前CEO埃里克・施密特在8月14日在史丹佛大學進行的演講中語出驚人,他表示AI創業公司可以先通過AI工具盜取知識產權,然後再僱用律師來處理法律糾紛。

埃里克・施密特以一直深陷風波的TikTok為例,"如果TikTok被禁,我建議你們每個人都做一個TikTok的副本,偷走所有的用戶、偷走所有的音樂,把偏好放進去,在接下來的30秒內製作這個程序、發布它"。緊接著他還進一步解釋到,"如果你是一位矽谷企業家,你會做的是如果產品起飛了,那麼就僱用一大群律師去收拾殘局,但如果沒有人使用你的產品,即便你竊取了所有的內容也沒關係。"

不得不說,作為谷歌的前任CEO,埃里克・施密特開出的這個藥方確實頗具"矽谷精神"。要知道就在數週前,《經濟學人》雜誌在一篇題為《AI 公司很快將耗盡大部分網際網路數據》的文章中就指出到,2028年網際網路上所有高品質的文本數據都將被使用完畢,機器學習數據集可能會在2026年前耗盡所有"高品質語言數據"。

合成數據此前被業界認為是一個有效的解決方案,既然人類產出的數據跟不上AI大模型迭代的需要,不如直接使用AI生成的數據。可是一篇7月末發表在《Nature》上的論文證實,使用AI生成的數據集來訓練大模型會污染它們的輸出,並無法避免"模型崩潰"(model collapse)問題。這篇論文一出,AI廠商對於使用合成數據必然會更加的謹慎。

只是Common Crawl數據集、The Pile語料庫等開源數據庫,已經哺育了GPT-4 、Gemini等一眾知名或不知名的大模型。現在的情況,是免費、開源,且品質有保障的數據庫已經被開發殆盡,而需要付費的數據則隨處可及,比如X、Reddit,以及各新聞媒體顯然都非常樂於出售自家的數據。

就在埃里克・施密特建議AI初創企業去偷數據的同一時間,《Nature》再度曝出一個大瓜,那就是以Taylor&Francis、Wiley為代表的一大批學術出版商,已經向微軟等廠商提供了付費訪問自家論文的機會,以便後者使用相關科研論文來訓練大模型。可問題是,恨不得一分錢掰成兩半花的AI初創企業,往往不願意為數據付費。

對於一家AI初創企業來說,運營成本無外乎算力、人力,以及數據。在AGI沒有真正實現之前,僱用AI科學家、程序員來訓練AI是必不可少的工作,找英偉達購買計算卡也屬於硬性支出,畢竟AI初創企業不可能去台積電的工廠裡偷走晶片。事實上,埃里克・施密特口中AI初創企業可以先偷數據、再用律師解決問題,恰恰證明了他確實是谷歌成長為科技巨頭的重要推手,是一個合格的矽谷人。

在矽谷有一句經典的格言,"Fake it until you make it",翻譯過來就是"假模假樣,直到像模像樣"。從上世紀喬布斯創立蘋果、到祖克柏打造出社交網絡,再到馬斯克締造特斯拉,一代又一代的矽谷人都是在這條格言的引領下闖出了偌大的事業。

先吹噓自己的想法、向投資人賣出一個好故事,吸引到資本和人才後再努力追趕目標,並最終實現,就是矽谷創業者們的秘笈,誇大未來、掩蓋失敗、捏造數據、忽視常識在矽谷可謂是司空見慣,比如此前被喬布斯掛在嘴邊的"海盜精神",不就是關注目標、不擇手段、打破常規,甚至可以將道德扔一邊。

當下,AI創業者最大的難題就是求生存。隨著AI投資熱的退潮以及AI泡沫論的興起,投資者對於AI初創企業的態度不僅不再狂熱,反而變得愈發審慎,也使得他們想要獲得融資的難度變得越來越大。在這樣的情況下,只有能拿出性能更好大模型的初創企業,才能獲得維持存續的資金。

如果不打破常規,繼續按部就班的結果,就是被敢於不走尋常路的競爭對手超越。所以埃里克・施密特的話對於AI初創企業來說就是"金玉良言",如果產品失敗、企業本身自然就要關門大吉,也就不會有人來尋求侵權賠償;可一旦一飛沖天,手裡有了錢的企業也能用"訴辯交易"來解決問題。

事實上,在埃里克・施密特說出這番驚人之語前,就已經有不少AI初創企業在踐行"偷竊"數據的做法了。"亂世"早已到來,只不過作為矽谷大佬的埃里克・施密特現在公開承認了這個現實而已。畢竟對數據有著無盡渴求的AI初創企業用技術手段攻破數據擁有者的防禦,後者紛紛築起"塢堡"幾乎就是不可避免的未來。