Яблоко бросает вызов GPT-4 с помощью собственной модели ИИ без GPU

Первая версия Apple Intelligence и одновременно выпущен 47-страничный технический отчет о собственной крупномасштабной модели Apple.

В первой версии Apple Intelligence были представлены следующие функции ИИ:

1. Обновление Siri. После активации Siri появляется световой эффект по краям экрана, она может понимать нечетко сформулированные команды пользователя и отвечать на вопросы, связанные с решением проблем с продуктами Apple.

2. Обновление инструментов для письма. Новая версия iOS предоставляет сервис генерации текста от Apple; также поддерживает функции ИИ для создания электронных писем, сообщений, транскрипции и обобщения речи.

3. Обновление инструментов для работы с изображениями. Эта версия предлагает более интеллектуальный поиск изображений и функцию создания видеовоспоминаний.

Многие функции ИИ, анонсированные Apple в июне, еще не появились в бета-версии iOS 18.1 для разработчиков. Apple заявляет, что планирует выпустить их в следующем году, включая:

1. Другие улучшения Siri, включая анализ личной информации, выполнение задач с внешними приложениями и т.д.

2. Функции генерации изображений и визуального контента, включая создание эмодзи и автоматическую очистку фотографий.

3. Интеграция ChatGPT от OpenAI и др.

iPadOS 18.1 и macOS Sequoia 15.1 также включают новые функции Apple Intelligence, но в настоящее время они доступны только для зарегистрированных разработчиков Apple, которые платят 99 долларов в год.

В опубликованной сегодня статье Apple раскрыла информацию о ### двух базовых моделях Apple (Apple Foundation Model, сокращенно "AFM").

Ссылка на статью: https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf

Одна из них - ### модель для устройств с 30 миллиардами параметров ### AFM-on-device, оптимизированная для эффективной работы на iPhone и других устройствах; другая - серверная модель ### AFM-server, параметры которой еще не раскрыты.

В отчете впервые представлены ### архитектура модели, обучающие данные, процесс обучения, оптимизация вывода и результаты оценки AFM. Также упоминается, что для обучения моделей использовались ### 10240 TPU от Google, а не GPU от NVIDIA.

Согласно описанию в статье, собственная крупномасштабная модель Apple ### превосходит GPT-4 в тестах на ### следование инструкциям и обобщение текста.

I. Первый показ Apple AI: Siri "трансформируется", написание текстов улучшается одним нажатием

В этот раз функции Apple Intelligence, представленные в бета-версии iOS 18.1 для разработчиков, в основном охватывают Siri, инструменты для письма, обзор электронной почты, поиск фотографий на естественном языке и другие аспекты.

1. Весь экран загорается ореолом, Siri преображается

Изменения Siri начинаются с нового внешнего вида: круглое световое пятно на экране заменено светящимся кольцом вокруг экрана, указывающим на активное состояние помощника.

Когда разработчики не хотят громко разговаривать с Siri, они могут переключиться с голосовых команд на ввод текста: двойное нажатие на нижнюю часть экрана iPhone или iPad вызывает клавиатуру для ввода запросов и команд Siri.

Siri теперь может понимать контекст нескольких команд. Например, разработчики могут попросить Siri создать расписание, а затем создать напоминание, не повторяя предыдущие слова.

2. Запуск инструментов для письма, улучшение предложений, обзор электронной почты

Инструменты для письма - одна из главных особенностей Apple Intelligence, позволяющая разработчикам получать предложения по тону и формулировкам, проверять текст и обобщать ключевые моменты.

Функция транскрипции аудио также доступна в бета-версии iOS 18.1 для разработчиков, встроенная в приложение Voice Memos и приложение Notes.

Функции письма работают как во встроенных приложениях устройств Apple, так и в сторонних приложениях, использующих стандартную систему ввода текста.

Приложение Mail теперь умно идентифицирует приоритетные письма и отображает всплывающие напоминания в верхней части входящих, чтобы напомнить разработчикам о конкретных сроках или предотвратить забывание важных действий.

Кроме того, новая версия поддерживает режим фокусировки, называемый "Уменьшение прерываний (Reduce Interruptions)", который использует ИИ для фильтрации важных уведомлений.

3. Поиск фотографий с помощью естественного языка, создание коротких видео с помощью ИИ

Разработчики теперь могут искать видео и фотографии, используя естественный язык. Например, при запросе "фото моей дочери, едящей чизбургер", Apple предоставит соответствующие результаты поиска. Это должно облегчить поиск конкретных изображений или моментов в видео без использования более общих ключевых слов.

Новая функция видеовоспоминаний (Movie memories) позволяет разработчикам вводить конкретные подсказки для создания фильмов, используя фотографии и видео, хранящиеся в приложении Photos.

Разработчики могут вводить собственные подсказки или использовать предложенные Apple Intelligence для получения интеллектуально сгенерированных фильмов с четкими главами и темами.

Эти уже запущенные функции Apple Intelligence все еще имеют некоторые ограничения в использовании.

В настоящее время Apple Intelligence доступен только зарегистрированным разработчикам Apple, которые платят 99 долларов в год, включая три версии для iOS, iPad и Mac. Разработчики должны установить регион устройства на США и язык на американский английский.

Кроме того, как сообщалось в июне, Apple Intelligence требует устройств уровня iPhone 15 Pro, iPhone 15 Pro Max или iPad и Mac с M1 и выше.

II. 47-страничная статья раскрывает крупномасштабную модель Apple, превосходящую GPT-4 в тестах на обобщение текста

По сравнению с текущими AI-смартфонами, одной из главных особенностей собственной модели Apple является выпуск модели для устройств, работающей на самом устройстве.

Согласно последней статье Apple, опубликованной сегодня, эта модель для устройств называется AFM-on-device и содержит около 30 миллиардов параметров, что намного меньше, чем модели OpenAI и Meta с сотнями миллиардов параметров.

Для выполнения более сложных задач Apple также разработала облачную модель AFM-server. Хотя ее точный размер еще не раскрыт, она предназначена для работы в облачной инфраструктуре Apple с использованием системы, называемой "Private Cloud Compute", для защиты пользовательских данных.

Как показано на рисунке ниже, AFM-on-device превосходит открытые модели, такие как Phi-3-mini, Mistral-7B, Gemma-2B, в тестах с участием людей и приближается к уровню Llama-3-8B.

AFM-server превосходит закрытые модели, такие как Llama-3-70B, Mixtral-8x22B, GPT-3.5, в тестах с участием людей и приближается к возможностям GPT-4.

В то же время, в плане следования инструкциям, AFM-server превосходит GPT-4 в тестах, а AFM-on-device превосходит открытые модели, такие как Llama-3-8B и Phi-3-mini.