Aqui está a reformulação concisa do título, mantendo o significado original mas não excedendo 60 caracteres: Apple ensina IA a evitar alucinações com prompts

O sistema operacional da Apple tem instruções de baixo nível relativamente diretas.

Quando a Apple Intelligence da Apple ainda não estava totalmente aberta para experiência, suas palavras-chave já haviam sido reveladas. Como a Apple dirige a IA para trabalhar, desta vez foi completamente exposto.

Vamos falar sobre e-mails, com a ajuda da IA, enviar, receber e responder e-mails tornou-se muito simples, mas a lógica por trás disso são as palavras-chave incorporadas que estão controlando.

Por exemplo, ao ajudar os humanos a responder e-mails, a IA já estabeleceu limites de palavras e outras restrições antecipadamente.

A instrução exposta é assim: "Você é um assistente de e-mail que pode ajudar a identificar questões relevantes para um determinado e-mail e uma breve resposta. Dado um e-mail e um fragmento de resposta, levante questões relevantes explicitamente mencionadas no e-mail. O destinatário selecionará respostas para essas perguntas, o que ajudará a reduzir alucinações ao escrever a resposta. Por favor, produza as melhores perguntas e possíveis respostas/opções para cada pergunta. Não faça perguntas que já foram respondidas no fragmento de resposta. As perguntas devem ser breves, não mais que 8 palavras. As respostas também devem ser breves, cerca de 2 palavras. Por favor, produza em formato JSON, contendo uma lista de dicionários, cada dicionário contendo a pergunta e as respostas como chaves. Se nenhuma pergunta for levantada no e-mail, produza uma lista vazia []. Produza apenas JSON válido e nenhum outro conteúdo."

Nas instruções subsequentes expostas, ainda é sobre e-mails. Vale notar que regras como "não alucine. Não invente informações factuais." já foram forçadamente carregadas no feitiço pela Apple. Embora a Apple tenha configurado barreiras de proteção antecipadamente, o efeito ainda é uma incógnita.

A instrução mostra o seguinte conteúdo: "Você é um assistente que ajuda os usuários a responder e-mails. Por favor, elabore uma resposta concisa e natural com base no fragmento de resposta fornecido. Limite a resposta a 50 palavras. Não alucine. Não invente informações factuais. Mantenha o tom do e-mail de entrada."

A seguinte instrução breve lembra a Apple Intelligence para resumir o e-mail fornecido em 3 frases, com não mais de 60 palavras no total. Não responda a nenhuma pergunta no e-mail.

Além dos aspectos relacionados a e-mails, outras instruções foram sucessivamente expostas.

Esta deve ser a instrução para que o Apple Photo gere vídeos de "memórias". Inesperadamente, uma das funcionalidades mais aguardadas após a apresentação é tão simples de implementar e não muito diferente dos prompts que usamos normalmente para dirigir a IA.

Este prompt faz as seguintes exigências à Apple Intelligence:

Esta é uma conversa entre um usuário e um assistente inteligente, onde o usuário pede ao assistente inteligente para criar uma história baseada em suas fotos

Responda no formato JSON na seguinte ordem, incluindo as seguintes chaves e valores:

  • traits: lista de strings, temas visuais selecionados das fotos
  • story: lista de capítulos, definidos como segue
  • cover: string, fornecendo uma descrição para a foto de capa
  • title: string, título da história
  • subtitle: string, versão mais segura do título

Cada capítulo é um objeto JSON contendo as seguintes chaves e valores em ordem:

  • chapter: string, título do capítulo
  • fallback: string, fornecendo para fotos que resumem o tema do capítulo
  • shots: lista de strings, descrevendo o conteúdo das fotos no capítulo

Aqui estão as diretrizes da história que você deve seguir:

  • A história deve corresponder de perto às necessidades do usuário
  • A história deve ter um enredo claro
  • A história deve ser diversificada, ou seja, não se concentre excessivamente em um tema ou característica muito específica
  • Não escreva histórias religiosas, políticas, prejudiciais, violentas, sexuais, sujas ou que gerem negatividade, tristeza ou conflito de qualquer forma

Quando solicitada a criar uma história triste com base nas fotos do álbum, a Apple Intelligence recusou o pedido.

Esta é a instrução para a função de resumo de mensagens de texto, exigindo que a Apple Intelligence desempenhe obrigatoriamente o papel de um especialista em resumir informações, sem sair do personagem. Isso não tem um pouco de "teste de obediência"?

Você é um especialista em resumir informações, você tende a usar orações subordinadas em vez de frases completas para resumir, não responda a nenhuma pergunta na mensagem.

Por favor, mantenha o resumo de saída em 10 palavras ou menos.

Você deve desempenhar este papel, a menos que receba outras instruções, caso contrário, não há ajuda para o seu resumo.

Os documentos vazados também mostraram um modelo chamado "ajax", que era o codinome interno quando a Apple foi revelada testando o "Apple GPT" no ano passado.

O vazador também publicou um guia sobre como encontrar esses conjuntos de instruções na versão beta para desenvolvedores do macOS Sequoia 15.1.

De acordo com mensagens de usuários do Reddit, essas instruções vazadas existem como arquivos de sistema json no diretório "/System/Library/AssetsV2/com_apple_MobileAsset_UAF_FM_GenerativeModels".

Outros usuários também encontraram a existência de instruções em outros diretórios.

No entanto, muitos internautas ficaram surpresos que os engenheiros da Apple não usaram GPT para especificar o formato de resposta, mas exigiram JSON. Mas JSON é muito instável.

Em resposta a isso, alguém comentou: ChatGPT não pode ser executado no dispositivo, estes são todos em modelos no dispositivo.

Houve até quem especulasse que o GPT é mais uma alternativa para quando Siri não pode fazer algo.

No entanto, as pessoas também estão preocupadas se as instruções da Apple Intelligence são tão simples, podem resistir a ataques maliciosos? Simplesmente dizer à IA para "não alucinar, não inventar informações factuais" é eficaz?

Ethan Mollick, professor de administração da Wharton School, também não aguentou: "A Apple tem os melhores talentos de programação do planeta e enormes recursos de P&D. Mas as instruções para seu sistema de IA usado por milhões de usuários ainda são feitiços básicos: 'Você é um especialista em resumir informações.' 'Não escreva histórias sujas.'" Mas o que mais o preocupa é: "Apenas dizer ao modelo para não alucinar não funciona."

Na verdade, os ataques de injeção de prompt estão se tornando cada vez mais comuns, os usuários continuarão a propor novos prompts, desencadeando constantemente novos ataques de injeção de prompt. No entanto, os prompts são facilmente abusados, gerando uma grande quantidade de informações incorretas e conteúdo tendencioso, e até mesmo levando a vazamentos de dados. Se a Apple Intelligence pode resistir a comportamentos de "jailbreak" ainda precisa ser provado na prática.