GPT-4语音功能终于如期而至,科幻版Her走进现实。一些灰度测试到的用户已经开始尝试这项新功能。目前,OpenAI只提供了4种预设语音。此外,GPT-4新模型的输出token也大幅增加至64K,是之前的16倍。
赶在7月结束前,GPT-4语音模式开启了灰度测试,部分ChatGPT Plus用户已获得使用权限。OpenAI表示,高级语音模式提供了更加自然、实时的对话体验,用户可以随意打断,系统甚至能感知和回应用户的情绪。预计今年秋季,所有ChatGPT Plus用户都能使用这项功能。
此外,视频和屏幕共享等更强大的功能也将在稍后推出。用户将能够开启摄像头与ChatGPT进行"面对面"交流。
一些获得灰度测试资格的用户已经开始探索GPT-4语音模式的各种应用场景。例如,有人将其用作"外语教练",帮助练习口语。ChatGPT能够纠正用户的发音,如Croissant(羊角面包)和Baguette(法式长棍)等单词。
与此同时,GPT-4的输出token大幅增加。OpenAI最近在官方网页中悄然推出了测试版新模型gpt-4-64k-output-alpha,将输出token从最初的4000个增加到64000个。这意味着用户可以一次性获得约4个完整的长篇电影剧本。
OpenAI表示,之所以现在才推出GPT-4语音功能,是因为过去几个月一直在进行安全性和质量测试。他们与100多名红队成员对GPT-4的语音能力进行了45种语言的测试。为保护用户隐私,系统只使用4种"预设声音"进行对话,并创建了一个系统来阻止其他声音的输出。此外,还采取了内容过滤措施,阻止生成暴力和涉及版权的内容。
OpenAI计划在8月初发布一份详细报告,介绍GPT-4的能力、局限性和安全评估结果。
用户分享了GPT-4语音模式的多种应用案例,包括表演节奏口技、以不同情绪讲笑话、模仿动物叫声等。测试显示,ChatGPT高级语音模式响应速度快,几乎没有延迟,能够准确模仿各种声音和口音。
除了语音功能,支持更大token输出的GPT-4也随之推出。OpenAI宣布向测试者提供GPT-4 Alpha版本,每次请求支持最多输出64K token,相当于200页小说。测试者可以通过"gpt-4-64k-output-alpha"访问GPT-4的长输出功能。
新模型的价格有所上涨,每百万输入token 6美元,每百万输出token 18美元。虽然输出token是GPT-4的16倍,但价格也上涨了3美元。
研究员Simon Willison表示,长输出主要用于数据转换用例,如将文档从一种语言翻译成另一种语言,或从文档中提取结构化数据。在此之前,最长输出模型是GPT-4,为16K token。