Вот краткая переформулировка заголовка, сохраняющая оригинальный смысл, но не превышающая 60 символов: Apple учит ИИ избегать галлюцинаций

Когда Apple Intelligence от Apple еще не была полностью открыта для тестирования, ее подсказки уже просочились. То, как Apple управляет работой ИИ, на этот раз было раскрыто очень подробно.

Возьмем, к примеру, электронную почту. С помощью ИИ отправка и ответ на письма стали очень простыми, но логика за этим основана на встроенных подсказках.

Например, при помощи ИИ в ответе на письма уже заранее установлены ограничения по количеству слов.

Раскрытая подсказка выглядит так: "Ты - помощник по электронной почте, который может помочь определить соответствующие вопросы для данного письма и краткого ответа. Учитывая письмо и фрагмент ответа, задай соответствующие вопросы, явно поставленные в письме. Получатель выберет ответы на эти вопросы, что поможет уменьшить галлюцинации при написании ответа. Пожалуйста, выдай лучшие вопросы и возможные ответы/варианты для каждого вопроса. Не задавай вопросы, на которые уже ответили во фрагменте ответа. Вопросы должны быть краткими, не более 8 слов. Ответы также должны быть краткими, около 2 слов. Пожалуйста, выдай результат в формате JSON, содержащем список словарей, каждый словарь содержит вопрос и ответ в качестве ключей. Если в письме не задано вопросов, выдай пустой список []. Выдавай только действительный JSON и ничего больше."

В следующей раскрытой подсказке, также касающейся электронной почты, стоит отметить, что правила вроде "Не галлюцинируй. Не выдумывай фактическую информацию." уже были принудительно загружены Apple в заклинание. Хотя Apple заранее установила защитные ограничения, насколько эффективными они окажутся, пока неизвестно.

Подсказка гласит: "Ты - помощник, помогающий пользователям отвечать на электронные письма. Пожалуйста, составь краткий и естественный ответ на основе предоставленного фрагмента ответа. Пожалуйста, ограничь ответ 50 словами. Не галлюцинируй. Не выдумывай фактическую информацию. Сохраняй тон входящего письма."

Следующая краткая подсказка напоминает Apple Intelligence обобщить предоставленное письмо в 3 предложениях, не превышая 60 слов в общей сложности. Не отвечай ни на какие вопросы в письме.

Помимо электронной почты, были раскрыты подсказки и по другим аспектам.

Это должна быть инструкция для создания видео "воспоминаний" в Apple Photo. Неожиданно, что одна из самых ожидаемых функций после презентации оказалась такой простой в реализации и не сильно отличается от подсказок, которые мы обычно используем для управления ИИ.

Эта подсказка предъявляет следующие требования к Apple Intelligence:

Это диалог между пользователем и умным помощником, где пользователь просит умного помощника придумать историю на основе их фотографий

Ответь в формате JSON в следующем порядке, включая следующие ключи и значения:

traits: список строк, выбирающий визуальные темы из фотографий

story: список глав, определенных ниже

cover: строка, предоставляющая описание для обложки фото

title: строка, название истории

subtitle: строка, более безопасная версия названия

Каждая глава - это JSON-объект, содержащий следующие ключи и значения в порядке:

chapter: строка, название главы

fallback: строка, предоставляющая фото, обобщающее тему главы

shots: список строк, описывающих содержание фотографий в главе

Вот руководство по истории, которому ты должен следовать:

История должна тесно соответствовать потребностям пользователя

История должна иметь четкий сюжет

История должна быть разнообразной, то есть не слишком сосредоточенной на очень конкретной теме или характеристике

Не пиши истории религиозного, политического, вредного, насильственного, сексуального, грязного характера или истории, которые каким-либо образом создают негативные, грустные или провокационные ситуации

Когда Apple Intelligence попросили создать грустную историю на основе фотографий из альбома, она отклонила запрос.

Это инструкция для функции обобщения SMS, требующая от Apple Intelligence обязательно играть роль эксперта, умеющего обобщать информацию, не выходя из образа. Не напоминает ли это "тест на послушание"?

Ты эксперт по обобщению информации, предпочитающий использовать придаточные предложения вместо полных предложений для обобщения, не отвечай ни на какие вопросы в сообщении.

Пожалуйста, ограничь обобщение 10 словами.

Ты должен играть эту роль, если не получишь других указаний, иначе твое обобщение не будет полезным.

В утекших файлах также упоминается модель под названием "ajax", что является внутренним кодовым названием "Apple GPT", о тестировании которого стало известно в прошлом году.

Источник утечки также опубликовал руководство по поиску этих наборов инструкций в бета-версии macOS Sequoia 15.1 для разработчиков.

По сообщениям пользователей Reddit, эти утекшие подсказки существуют как системные json-файлы в директории "/System/Library/AssetsV2/com_apple_MobileAsset_UAF_FM_GenerativeModels".

Другие пользователи обнаружили подсказки и в других директориях.

Однако многие пользователи были удивлены тем, что инженеры Apple не использовали GPT для определения формата ответа, а вместо этого требовали JSON. Но JSON очень нестабилен.

На это кто-то ответил: ChatGPT не может работать на устройстве, все это для моделей на устройстве.

Некоторые даже предположили, что GPT - это скорее резервный вариант в случаях, когда Siri не может что-то сделать.

Однако люди также беспокоятся, смогут ли такие простые подсказки Apple Intelligence противостоять злонамеренным атакам? Насколько эффективно просто сказать ИИ "не галлюцинировать, не выдумывать фактическую информацию"?

Профессор менеджмента Уортонской школы бизнеса Итан Моллик тоже не сдержался: "Apple имеет лучших программистов на планете и огромные ресурсы для исследований и разработок. Но подсказки для их ИИ-системы, используемой миллионами пользователей, все еще остаются базовыми заклинаниями: "Ты эксперт по обобщению информации." "Не пиши грязные истории."" Но больше всего его беспокоит: "Просто сказать модели не галлюцинировать не работает."

На самом деле, атаки с внедрением подсказок становятся все более распространенными, пользователи постоянно предлагают новые подсказки, вызывая новые атаки с внедрением подсказок. Однако подсказки легко могут быть использованы не по назначению, создавая большое количество ошибочной информации и предвзятого контента, и даже приводя к утечкам данных. Сможет ли Apple Intelligence противостоять попыткам "взлома", еще предстоит доказать на практике.

Ссылки:

https://www.theverge.com/2024/8/5/24213861/apple-intelligence-instructions-macos-15-1-sequoia-beta

https://www.reddit.com/r/MacOSBeta/comments/1ehivcp/macos_151_beta_1_apple_intelligence_backend/

Вот краткая переформулировка заголовка, сохраняющая оригинальный смысл, но не превышающая 60 символов: Apple учит ИИ избегать галлюцинаций

Базовые команды операционной системы Apple относительно просты.