苹果智能的首个版本,同时47页的苹果自研大模型技术报告重磅发布。
苹果智能首个版本上线了以下AI功能:
1、Siri升级。Siri唤醒后具备屏幕边缘发光特效,能理解用户表述不通顺的指令,且能回答关于苹果产品故障解决的相关问题。
2、写作工具升级。新版iOS提供苹果的文本生成服务;同时支持AI生成邮件、信息,语音转录摘要等功能。
3、视图工具升级。该版本提供更智能的图片搜索及电影回忆制作功能。
仍有不少苹果在6月发布的AI功能未出现在iOS 18.1开发者测试版,苹果称计划在明年推出,包括:
1、Siri的其他改进,包括个人信息分析,联动外部应用执行任务等。
2、图像视觉生成功能,包括表情符号的生成,以及自动清理照片等视图相关能力等。
3、OpenAI旗下ChatGPT的集成等。
iPadOS 18.1、macOS Sequoia 15.1也植入了相关苹果智能新功能,不过它们目前都仅向每年支付99美元的注册苹果开发者开放。
在今天发布的论文中,苹果透露了其### 两款苹果基础模型(Apple Foundation Model,简称"AFM")。
论文链接:https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf
一个是### 30亿参数的端侧模型### AFM-on-device,经优化可在iPhone和其他设备上高效运行;另一个是云端模型### AFM-server,尚未公布模型参数。
报告首次对AFM的### 模型架构、训练数据、训练过程、推理优化及评估结果进行了解读,并提到背后模型的训练采用的是累计### 10240颗谷歌TPU,而未提及英伟达GPU。
根据论文描述,苹果自研大模型在### 指令遵循、文本总结方面测试### 超GPT-4。
一、苹果AI上机首秀:Siri"变身换脑",写作一键润色
本次,苹果iOS 18.1开发者测试版上线的苹果智能功能,主要覆盖Siri、写作工具、邮件提要、照片自然语言搜索等方面。
1、整个屏幕闪起光环,Siri变身
Siri的变化首先是新外观,此前屏幕上出现的圆形光斑,被环绕屏幕的发光灯取代,以表示助手处于活动状态。
当开发者不想大声对Siri说话时,开发者可以从语音命令切换到键入:双击iPhone或iPad屏幕底部即可调出键盘,用于输入Siri查询和命令。
Siri已经能够理解多个指令上下文。例如,开发者可以要求Siri创建日程,然后要求创建提醒,而无需重复前面说的话。
2、写作工具上线,润色语句、邮件提要
写作工具是苹果智能的一大卖点,支持开发者就语气和措辞提出建议,校对文本并总结要点。
录音转录功能也已经可以体验,在iOS 18.1开发者测试版,语音备忘录应用程序以及Notes应用已经内置了录音转录功能。
写作功能既适用于苹果设备的内置应用程序,也可用于使用标准输入文本系统的第三方应用程序。
邮件应用现在会智能识别优先邮件,并将在收件箱顶部出现提醒浮窗,以提醒开发者特定的截止日期,或避免忘记一些重要行动事项。
此外,新版本还支持专注模式,称为"减少干扰(Reduce Interruptions)",该模式将使用AI识别过滤重要的通知。
3、自然语言交互搜索照片,AI生成短片
开发者已经能够使用自然语言查找视频和照片。比如查询"我女儿吃芝士汉堡的照片",苹果将提供对应的搜索结果。它应该可以更轻松地在视频中找到特定图像或确切时刻,而无需使用更通用的关键字。
新的电影回忆(Movie memories)功能可让开发者输入特定提示,使用照片应用中存储的照片和视频制作电影。
开发者可以输入自己的提示或使用苹果智能建议的提示词,获得智能生成的电影,影片具有明确的章节和主题。
苹果智能这些已上线的功能仍有一些使用限制。
目前,苹果智能仅向每年支付99美元的注册苹果开发者开放,包括面向iOS、iPad和Mac的三个版本。开发者需要将设备区域设置为美国,语言设置为美国英语。
此外,此前6月报道曾提到,苹果智能要求设备达到iPhone 15 Pro、iPhone 15 Pro Max或配备M1的iPad和Mac及以上配置。
二、47页论文解读苹果大模型,文本总结等测试超GPT-4
相比于当下各家的AI手机,苹果自研模型的一大特点,是推出在设备上运行的端侧模型。
根据苹果今日最新发布的论文,该端侧模型名为AFM-on-device,包含约30亿参数,远小于OpenAI和Meta等公司模型的千亿参数级别。
为了执行更复杂的任务,苹果也开发了云端模型AFM-server。虽然具体大小尚未透露,但它旨在使用名为"私有云计算(Private Cloud Compute)"的系统在苹果的云基础设施中运行,以保护用户数据。
如下图所示,AFM-on-device在人类测试中超越了Phi-3-mini、Mistral-7B、Gemma-2B等开源模型,接近Llama-3-8B的水平。
AFM-server在人类测试中超越Llama-3-70B、Mixtral-8x22B、GPT-3.5等闭源模型,接近GPT-4的能力。
同时,在指令遵循方面,AFM-server测试超GPT-4,AFM-on-device则超越了Llama-3-8B、Phi-3-mini等开源模型。