以下是翻译成简体中文的内容:
到2028年互联网上所有高质量的文本数据都将被使用完毕,以及AI厂商正陷入数据荒的说法,无疑是近期AI行业的热点话题。如何获得更多的数据与获得更多算力,更是并列为当下AI厂商最为头疼的问题。对此,谷歌前CEO埃里克·施密特在8月14日在斯坦福大学进行的演讲中语出惊人,他表示AI创业公司可以先通过AI工具盗取知识产权,然后再雇佣律师来处理法律纠纷。
埃里克·施密特以一直深陷风波的TikTok为例,"如果TikTok被禁,我建议你们每个人都做一个TikTok的副本,偷走所有的用户、偷走所有的音乐,把偏好放进去,在接下来的30秒内制作这个程序、发布它"。紧接着他还进一步解释到,"如果你是一位硅谷企业家,你会做的是如果产品起飞了,那么就雇用一大群律师去收拾残局,但如果没有人使用你的产品,即便你窃取了所有的内容也没关系。"
不得不说,作为谷歌的前任CEO,埃里克·施密特开出的这个药方确实颇具"硅谷精神"。要知道就在数周前,《经济学人》杂志在一篇题为《AI 公司很快将耗尽大部分互联网数据》的文章中就指出到,2028年互联网上所有高质量的文本数据都将被使用完毕,机器学习数据集可能会在2026年前耗尽所有"高质量语言数据"。
合成数据此前被业界认为是一个有效的解决方案,既然人类产出的数据跟不上AI大模型迭代的需要,不如直接使用AI生成的数据。可是一篇7月末发表在《Nature》上的论文证实,使用AI生成的数据集来训练大模型会污染它们的输出,并无法避免"模型崩溃"(model collapse)问题。这篇论文一出,AI厂商对于使用合成数据必然会更加的谨慎。
只是Common Crawl数据集、The Pile语料库等开源数据库,已经哺育了GPT-4 、Gemini等一众知名或不知名的大模型。现在的情况,是免费、开源,且质量有保障的数据库已经被开发殆尽,而需要付费的数据则随处可及,比如X、Reddit,以及各新闻媒体显然都非常乐于出售自家的数据。
就在埃里克·施密特建议AI初创企业去偷数据的同一时间,《Nature》再度曝出一个大瓜,那就是以Taylor&Francis、Wiley为代表的一大批学术出版商,已经向微软等厂商提供了付费访问自家论文的机会,以便后者使用相关科研论文来训练大模型。可问题是,恨不得一分钱掰成两半花的AI初创企业,往往不愿意为数据付费。
对于一家AI初创企业来说,运营成本无外乎算力、人力,以及数据。在AGI没有真正实现之前,雇佣AI科学家、程序员来训练AI是必不可少的工作,找英伟达购买计算卡也属于硬性支出,毕竟AI初创企业不可能去台积电的工厂里偷走芯片。事实上,埃里克·施密特口中AI初创企业可以先偷数据、再用律师解决问题,恰恰证明了他确实是谷歌成长为科技巨头的重要推手,是一个合格的硅谷人。
在硅谷有一句经典的格言,"Fake it until you make it",翻译过来就是"假模假样,直到像模像样"。从上世纪乔布斯创立苹果、到扎克伯格打造出社交网络,再到马斯克缔造特斯拉,一代又一代的硅谷人都是在这条格言的引领下闯出了偌大的事业。
先吹嘘自己的想法、向投资人卖出一个好故事,吸引到资本和人才后再努力追赶目标,并最终实现,就是硅谷创业者们的秘籍,夸大未来、掩盖失败、捏造数据、忽视常识在硅谷可谓是司空见惯,比如此前被乔布斯挂在嘴边的"海盗精神",不就是关注目标、不择手段、打破常规,甚至可以将道德扔一边。
当下,AI创业者最大的难题就是求生存。随着AI投资热的退潮以及AI泡沫论的兴起,投资者对于AI初创企业的态度不仅不再狂热,反而变得愈发审慎,也使得他们想要获得融资的难度变得越来越大。在这样的情况下,只有能拿出性能更好大模型的初创企业,才能获得维持存续的资金。
如果不打破常规,继续按部就班的结果,就是被敢于不走寻常路的竞争对手超越。所以埃里克·施密特的话对于AI初创企业来说就是"金玉良言",如果产品失败、企业本身自然就要关门大吉,也就不会有人来寻求侵权赔偿;可一旦一飞冲天,手里有了钱的企业也能用"诉辩交易"来解决问题。
事实上,在埃里克·施密特说出这番惊人之语前,就已经有不少AI初创企业在践行"偷窃"数据的做法了。"乱世"早已到来,只不过作为硅谷大佬的埃里克·施密特现在公开承认了这个现实而已。毕竟对数据有着无尽渴求的AI初创企业用技术手段攻破数据拥有者的防御,后者纷纷筑起"坞堡"几乎就是不可避免的未来。