Первая версия Apple Intelligence и одновременно выпущен 47-страничный технический отчет о собственной крупномасштабной модели Apple.
В первой версии Apple Intelligence были представлены следующие функции ИИ:
1. Обновление Siri. После активации Siri появляется световой эффект по краям экрана, она может понимать нечетко сформулированные команды пользователя и отвечать на вопросы, связанные с решением проблем с продуктами Apple.
2. Обновление инструментов для письма. Новая версия iOS предоставляет сервис генерации текста от Apple; также поддерживает функции ИИ для создания электронных писем, сообщений, транскрипции и обобщения речи.
3. Обновление инструментов для работы с изображениями. Эта версия предлагает более интеллектуальный поиск изображений и функцию создания видеовоспоминаний.
Многие функции ИИ, анонсированные Apple в июне, еще не появились в бета-версии iOS 18.1 для разработчиков. Apple заявляет, что планирует выпустить их в следующем году, включая:
1. Другие улучшения Siri, включая анализ личной информации, выполнение задач с внешними приложениями и т.д.
2. Функции генерации изображений и визуального контента, включая создание эмодзи и автоматическую очистку фотографий.
3. Интеграция ChatGPT от OpenAI и др.
iPadOS 18.1 и macOS Sequoia 15.1 также включают новые функции Apple Intelligence, но в настоящее время они доступны только для зарегистрированных разработчиков Apple, которые платят 99 долларов в год.
В опубликованной сегодня статье Apple раскрыла информацию о ### двух базовых моделях Apple (Apple Foundation Model, сокращенно "AFM").
Ссылка на статью: https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf
Одна из них - ### модель для устройств с 30 миллиардами параметров ### AFM-on-device, оптимизированная для эффективной работы на iPhone и других устройствах; другая - серверная модель ### AFM-server, параметры которой еще не раскрыты.
В отчете впервые представлены ### архитектура модели, обучающие данные, процесс обучения, оптимизация вывода и результаты оценки AFM. Также упоминается, что для обучения моделей использовались ### 10240 TPU от Google, а не GPU от NVIDIA.
Согласно описанию в статье, собственная крупномасштабная модель Apple ### превосходит GPT-4 в тестах на ### следование инструкциям и обобщение текста.
I. Первый показ Apple AI: Siri "трансформируется", написание текстов улучшается одним нажатием
В этот раз функции Apple Intelligence, представленные в бета-версии iOS 18.1 для разработчиков, в основном охватывают Siri, инструменты для письма, обзор электронной почты, поиск фотографий на естественном языке и другие аспекты.
1. Весь экран загорается ореолом, Siri преображается
Изменения Siri начинаются с нового внешнего вида: круглое световое пятно на экране заменено светящимся кольцом вокруг экрана, указывающим на активное состояние помощника.
Когда разработчики не хотят громко разговаривать с Siri, они могут переключиться с голосовых команд на ввод текста: двойное нажатие на нижнюю часть экрана iPhone или iPad вызывает клавиатуру для ввода запросов и команд Siri.
Siri теперь может понимать контекст нескольких команд. Например, разработчики могут попросить Siri создать расписание, а затем создать напоминание, не повторяя предыдущие слова.
2. Запуск инструментов для письма, улучшение предложений, обзор электронной почты
Инструменты для письма - одна из главных особенностей Apple Intelligence, позволяющая разработчикам получать предложения по тону и формулировкам, проверять текст и обобщать ключевые моменты.
Функция транскрипции аудио также доступна в бета-версии iOS 18.1 для разработчиков, встроенная в приложение Voice Memos и приложение Notes.
Функции письма работают как во встроенных приложениях устройств Apple, так и в сторонних приложениях, использующих стандартную систему ввода текста.
Приложение Mail теперь умно идентифицирует приоритетные письма и отображает всплывающие напоминания в верхней части входящих, чтобы напомнить разработчикам о конкретных сроках или предотвратить забывание важных действий.
Кроме того, новая версия поддерживает режим фокусировки, называемый "Уменьшение прерываний (Reduce Interruptions)", который использует ИИ для фильтрации важных уведомлений.
3. Поиск фотографий с помощью естественного языка, создание коротких видео с помощью ИИ
Разработчики теперь могут искать видео и фотографии, используя естественный язык. Например, при запросе "фото моей дочери, едящей чизбургер", Apple предоставит соответствующие результаты поиска. Это должно облегчить поиск конкретных изображений или моментов в видео без использования более общих ключевых слов.
Новая функция видеовоспоминаний (Movie memories) позволяет разработчикам вводить конкретные подсказки для создания фильмов, используя фотографии и видео, хранящиеся в приложении Photos.
Разработчики могут вводить собственные подсказки или использовать предложенные Apple Intelligence для получения интеллектуально сгенерированных фильмов с четкими главами и темами.
Эти уже запущенные функции Apple Intelligence все еще имеют некоторые ограничения в использовании.
В настоящее время Apple Intelligence доступен только зарегистрированным разработчикам Apple, которые платят 99 долларов в год, включая три версии для iOS, iPad и Mac. Разработчики должны установить регион устройства на США и язык на американский английский.
Кроме того, как сообщалось в июне, Apple Intelligence требует устройств уровня iPhone 15 Pro, iPhone 15 Pro Max или iPad и Mac с M1 и выше.
II. 47-страничная статья раскрывает крупномасштабную модель Apple, превосходящую GPT-4 в тестах на обобщение текста
По сравнению с текущими AI-смартфонами, одной из главных особенностей собственной модели Apple является выпуск модели для устройств, работающей на самом устройстве.
Согласно последней статье Apple, опубликованной сегодня, эта модель для устройств называется AFM-on-device и содержит около 30 миллиардов параметров, что намного меньше, чем модели OpenAI и Meta с сотнями миллиардов параметров.
Для выполнения более сложных задач Apple также разработала облачную модель AFM-server. Хотя ее точный размер еще не раскрыт, она предназначена для работы в облачной инфраструктуре Apple с использованием системы, называемой "Private Cloud Compute", для защиты пользовательских данных.
Как показано на рисунке ниже, AFM-on-device превосходит открытые модели, такие как Phi-3-mini, Mistral-7B, Gemma-2B, в тестах с участием людей и приближается к уровню Llama-3-8B.
AFM-server превосходит закрытые модели, такие как Llama-3-70B, Mixtral-8x22B, GPT-3.5, в тестах с участием людей и приближается к возможностям GPT-4.
В то же время, в плане следования инструкциям, AFM-server превосходит GPT-4 в тестах, а AFM-on-device превосходит открытые модели, такие как Llama-3-8B и Phi-3-mini.