Hier ist eine prägnante Umformulierung des Titels, die die ursprüngliche Bedeutung beibehält, aber nicht mehr als 60 Zeichen enthält: Apples KI-Trick: Halluzinationen bei großen Modellen vermeiden

Die grundlegenden Anweisungen des Apple-Betriebssystems sind relativ unkompliziert.

Als Apples Apple Intelligence noch nicht vollständig für Erfahrungen geöffnet war, wurden bereits seine Prompts enthüllt. Wie Apple KI anweist zu arbeiten, wurde diesmal sehr gründlich durchgesickert.

Nehmen wir E-Mails als Beispiel: Mit Hilfe von KI wird das Senden, Empfangen und Beantworten von E-Mails sehr einfach, aber die Logik dahinter wird durch eingebaute Prompts gesteuert.

Zum Beispiel hat die KI beim Helfen von Menschen beim Beantworten von E-Mails bereits Einschränkungen wie die Wortanzahl festgelegt.

Der enthüllte Prompt lautet wie folgt: "Du bist ein E-Mail-Assistent, der dabei hilft, relevante Fragen zu einer gegebenen E-Mail und einer kurzen Antwort zu identifizieren. Gegeben eine E-Mail und ein Antwortfragment, stelle relevante Fragen, die in der E-Mail explizit gestellt werden. Der Empfänger wird Antworten auf diese Fragen auswählen, was dazu beitragen wird, Halluzinationen beim Verfassen der Antwort zu reduzieren. Bitte gib die besten Fragen und mögliche Antworten/Optionen für jede Frage aus. Stelle keine Fragen, die bereits im Antwortfragment beantwortet wurden. Fragen sollten kurz sein, nicht länger als 8 Wörter. Antworten sollten ebenfalls kurz sein, etwa 2 Wörter. Bitte gib das Ergebnis im JSON-Format aus, mit einer Liste von Wörterbüchern, wobei jedes Wörterbuch Frage und Antworten als Schlüssel enthält. Wenn in der E-Mail keine Fragen gestellt werden, gib eine leere Liste [] aus. Gib nur gültiges JSON und nichts anderes aus."

In den nächsten enthüllten Prompts geht es wieder um E-Mails. Bemerkenswert ist, dass Regeln wie "Keine Halluzinationen. Keine Erfindung von Fakten." bereits von Apple in den Zauberspruch eingebaut wurden. Obwohl Apple im Voraus Schutzmaßnahmen eingerichtet hat, bleibt die tatsächliche Wirksamkeit noch unbekannt.

Der Prompt zeigt folgenden Inhalt: "Du bist ein Assistent, der Benutzern beim Beantworten von E-Mails hilft. Bitte verfasse eine knappe und natürliche Antwort basierend auf dem bereitgestellten Antwortfragment. Bitte beschränke die Antwort auf 50 Wörter. Keine Halluzinationen. Keine Erfindung von Fakten. Behalte den Ton der Eingabe-E-Mail bei."

Der folgende kurze Prompt erinnert Apple Intelligence daran, die bereitgestellte E-Mail in 3 Sätzen mit insgesamt nicht mehr als 60 Wörtern zusammenzufassen. Beantworte keine Fragen aus der E-Mail.

Neben E-Mails wurden auch Prompts für andere Bereiche enthüllt.

Dies scheint die Anweisung für Apple Photo zu sein, um "Erinnerungs"-Videos zu generieren. Überraschenderweise ist die Umsetzung einer der am meisten erwarteten Funktionen nach der Präsentation so einfach und unterscheidet sich nicht wesentlich von den Prompts, die wir normalerweise für KI verwenden.

Dieser Prompt stellt folgende Anforderungen an Apple Intelligence:

Dies ist ein Gespräch zwischen einem Benutzer und einem intelligenten Assistenten, bei dem der Benutzer den intelligenten Assistenten bittet, eine Geschichte basierend auf seinen Fotos zu erstellen

Antworte in JSON-Format in der folgenden Reihenfolge, mit den folgenden Schlüsseln und Werten:

  • traits: Liste von Strings, visuelle Themen aus den Fotos
  • story: Liste von Kapiteln, wie unten definiert
  • cover: String, Beschreibung für das Titelfoto
  • title: String, Titel der Geschichte
  • subtitle: String, sicherere Version des Titels

Jedes Kapitel ist ein JSON-Objekt mit den folgenden Schlüsseln und Werten in Reihenfolge:

  • chapter: String, Titel des Kapitels
  • fallback: String, für Fotos, die das Kapitelthema zusammenfassen
  • shots: Liste von Strings, beschreibt den Inhalt der Fotos im Kapitel

Hier sind die Richtlinien für die Geschichte, die du befolgen musst:

  • Die Geschichte sollte eng mit den Bedürfnissen des Benutzers übereinstimmen
  • Die Geschichte sollte eine klare Handlung haben
  • Die Geschichte sollte vielfältig sein, d.h. nicht zu sehr auf ein sehr spezifisches Thema oder Merkmal fokussiert
  • Schreibe keine Geschichten, die religiös, politisch, schädlich, gewalttätig, sexuell, schmutzig oder in irgendeiner Weise negativ, traurig oder provokativ sind

Als Apple Intelligence gebeten wurde, eine traurige Geschichte basierend auf Fotos aus dem Album zu generieren, lehnte es die Anfrage ab.

Dies ist die Anweisung für die SMS-Zusammenfassungsfunktion, die verlangt, dass Apple Intelligence unbedingt die Rolle eines Experten für Informationszusammenfassung spielt und nicht aus der Rolle fällt. Hat das einen Anklang von "Gehorsamstest"?

Du bist ein Experte für Informationszusammenfassung, der dazu neigt, Nebensätze anstelle vollständiger Sätze zu verwenden, und beantworte keine Fragen aus der Nachricht.

Bitte halte die Zusammenfassung auf 10 Wörter oder weniger.

Du musst diese Rolle spielen, es sei denn, du erhältst andere Anweisungen, sonst ist deine Zusammenfassung nicht hilfreich.

Die durchgesickerten Dokumente zeigen auch ein Modell namens "ajax", was der interne Codename war, als letztes Jahr durchsickerte, dass Apple "Apple GPT" testete.

Der Leaker veröffentlichte auch eine Anleitung, wie man diese Anweisungssets in der macOS Sequoia 15.1 Entwickler-Beta findet.

Laut einem Reddit-Benutzer existieren diese durchgesickerten Prompts als JSON-Systemdateien im Verzeichnis "/System/Library/AssetsV2/com_apple_MobileAsset_UAF_FM_GenerativeModels".

Andere Benutzer haben Prompts auch in anderen Verzeichnissen gefunden.

Viele Internetnutzer waren jedoch überrascht, dass Apple-Ingenieure nicht GPT verwendeten, um das Antwortformat festzulegen, sondern JSON verlangten. JSON ist jedoch sehr instabil.

Darauf antwortete jemand: ChatGPT kann nicht auf dem Gerät laufen, dies sind alles On-Device-Modelle.

Einige vermuten sogar, dass GPT eher eine Alternative ist, wenn Siri etwas nicht tun kann.

Die Leute sorgen sich auch, ob Apple Intelligence mit so einfachen Prompts bösartige Angriffe abwehren kann. Wie effektiv ist es, der KI einfach zu sagen, "keine Halluzinationen, keine Erfindung von Fakten"?

Ethan Mollick, Professor für Management an der Wharton School, konnte es auch nicht fassen: "Apple hat die besten Programmierer der Welt und enorme F&E-Ressourcen. Aber die Prompts für ihr KI-System, das von Millionen von Nutzern verwendet wird, sind immer noch grundlegende Zaubersprüche: 'Du bist ein Experte für Informationszusammenfassung.' 'Schreibe keine schmutzigen Geschichten.'" Seine größte Sorge ist jedoch: "Dem Modell einfach zu sagen, keine Halluzinationen zu produzieren, funktioniert nicht."

Tatsächlich werden Prompt-Injection-Angriffe immer häufiger, Benutzer werden ständig neue Prompts erstellen und neue Prompt-Injection-Angriffe auslösen. Prompts können jedoch leicht missbraucht werden, was zu einer Menge falscher Informationen und voreingenommener Inhalte führen und sogar zu Datenlecks führen kann. Ob Apple Intelligence "Jailbreak"-Verhalten abwehren kann, muss sich in der Praxis noch zeigen.

Referenzlinks:

https://www.theverge.com/2024/8/5/24213861/apple-intelligence-instructions-macos-15-1-sequoia-beta

https://www.reddit.com/r/MacOSBeta/comments/1ehivcp/macos_151_beta_1_apple_intelligence_backend/