Erste Version von Apple Intelligence und gleichzeitig Veröffentlichung des 47-seitigen technischen Berichts über Apples selbstentwickeltes großes Sprachmodell.
Die erste Version von Apple Intelligence bietet folgende KI-Funktionen:
1. Siri-Upgrade. Siri hat nach der Aktivierung einen leuchtenden Bildschirmrand-Effekt, kann unklare Anweisungen von Benutzern verstehen und Fragen zur Fehlerbehebung bei Apple-Produkten beantworten.
2. Upgrade der Schreibwerkzeuge. Die neue iOS-Version bietet Apples Textgenerierungsdienst; unterstützt auch KI-generierte E-Mails, Nachrichten, Sprachtranskription und Zusammenfassungen.
3. Upgrade der visuellen Tools. Diese Version bietet intelligentere Bildersuche und Funktionen zur Erstellung von Filmerinnerungen.
Viele der von Apple im Juni angekündigten KI-Funktionen sind in der iOS 18.1 Entwicklerversion noch nicht enthalten. Apple plant, diese im nächsten Jahr einzuführen, darunter:
1. Weitere Verbesserungen für Siri, einschließlich persönlicher Informationsanalyse und Verknüpfung mit externen Apps zur Aufgabenausführung.
2. Bild- und Videogenerierungsfunktionen, einschließlich Emoji-Generierung und automatische Fotobereinigung.
3. Integration von OpenAIs ChatGPT und mehr.
iPadOS 18.1 und macOS Sequoia 15.1 enthalten ebenfalls die neuen Apple Intelligence Funktionen, sind aber derzeit nur für registrierte Apple-Entwickler zugänglich, die jährlich 99 USD zahlen.
In dem heute veröffentlichten Papier enthüllt Apple ### zwei Apple Foundation Models (AFM).
Link zum Papier: https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf
Eines ist das ### 3-Milliarden-Parameter On-Device-Modell ### AFM-on-device, optimiert für effiziente Ausführung auf iPhones und anderen Geräten; das andere ist das Cloud-Modell ### AFM-server, dessen Parameterzahl noch nicht bekannt gegeben wurde.
Der Bericht erläutert erstmals die ### Modellarchitektur, Trainingsdaten, Trainingsprozesse, Inferenzoptimierung und Evaluierungsergebnisse der AFMs und erwähnt, dass für das Training ### 10240 Google TPUs verwendet wurden, ohne NVIDIA GPUs zu erwähnen.
Laut dem Papier übertrifft Apples selbstentwickeltes großes Sprachmodell ### GPT-4 in Tests zur ### Anweisungsbefolgung und Textzusammenfassung.
I. Apples KI-Debüt: Siri "transformiert", One-Click-Verfeinerung beim Schreiben
Die in der iOS 18.1 Entwicklerversion eingeführten Apple Intelligence Funktionen decken hauptsächlich Siri, Schreibwerkzeuge, E-Mail-Zusammenfassungen und natürlichsprachliche Fotosuche ab.
1. Der ganze Bildschirm leuchtet auf, Siri transformiert sich
Siris Veränderung beginnt mit einem neuen Erscheinungsbild. Der frühere runde Lichtfleck auf dem Bildschirm wurde durch ein den Bildschirm umgebendes Leuchten ersetzt, um anzuzeigen, dass der Assistent aktiv ist.
Wenn Entwickler nicht laut mit Siri sprechen möchten, können sie von Sprachbefehlen zum Tippen wechseln: Ein Doppeltippen am unteren Bildschirmrand von iPhone oder iPad ruft die Tastatur auf, um Siri-Anfragen und Befehle einzugeben.
Siri kann jetzt den Kontext mehrerer Anweisungen verstehen. Entwickler können Siri beispielsweise bitten, einen Termin zu erstellen und dann eine Erinnerung, ohne das vorher Gesagte zu wiederholen.
2. Schreibwerkzeuge eingeführt, Verfeinerung von Sätzen, E-Mail-Zusammenfassungen
Schreibwerkzeuge sind ein Hauptmerkmal von Apple Intelligence und unterstützen Entwickler mit Vorschlägen zu Ton und Wortwahl, Korrekturlesen von Texten und Zusammenfassung von Hauptpunkten.
Die Sprachtranskriptionsfunktion ist jetzt verfügbar. In der iOS 18.1 Entwicklerversion haben die Sprachmemo-App und die Notes-App integrierte Transkriptionsfunktionen.
Die Schreibfunktionen sind sowohl für Apples integrierte Apps als auch für Drittanbieter-Apps verfügbar, die das Standard-Texteingabesystem verwenden.
Die Mail-App erkennt jetzt intelligente Prioritäts-E-Mails und zeigt Erinnerungen am oberen Rand des Posteingangs an, um Entwickler an bestimmte Fristen zu erinnern oder wichtige Aktionspunkte nicht zu vergessen.
Darüber hinaus unterstützt die neue Version einen Fokus-Modus namens "Unterbrechungen reduzieren", der KI verwendet, um wichtige Benachrichtigungen zu identifizieren und zu filtern.
3. Natürlichsprachliche Interaktion bei der Fotosuche, KI-generierte Kurzfilme
Entwickler können jetzt natürliche Sprache verwenden, um Videos und Fotos zu finden. Zum Beispiel wird Apple bei der Suche nach "Fotos meiner Tochter, die einen Cheeseburger isst" entsprechende Suchergebnisse liefern. Es sollte einfacher sein, bestimmte Bilder oder genaue Momente in Videos zu finden, ohne allgemeinere Schlüsselwörter zu verwenden.
Die neue Funktion "Filmerinnerungen" ermöglicht es Entwicklern, spezifische Eingabeaufforderungen einzugeben, um Filme mit Fotos und Videos aus der Foto-App zu erstellen.
Entwickler können ihre eigenen Eingabeaufforderungen eingeben oder von Apple Intelligence vorgeschlagene Prompts verwenden, um intelligent generierte Filme mit klaren Kapiteln und Themen zu erhalten.
Diese bereits eingeführten Apple Intelligence Funktionen haben noch einige Nutzungsbeschränkungen.
Derzeit ist Apple Intelligence nur für registrierte Apple-Entwickler zugänglich, die jährlich 99 USD zahlen, einschließlich drei Versionen für iOS, iPad und Mac. Entwickler müssen ihre Geräteregion auf USA und die Sprache auf amerikanisches Englisch einstellen.
Darüber hinaus wurde in früheren Berichten vom Juni erwähnt, dass Apple Intelligence Geräte ab iPhone 15 Pro, iPhone 15 Pro Max oder iPads und Macs mit M1-Chip und höher erfordert.
II. 47-seitiges Papier erläutert Apples großes Sprachmodell, übertrifft GPT-4 in Tests zur Textzusammenfassung
Im Vergleich zu den aktuellen KI-Smartphones anderer Hersteller zeichnet sich Apples selbstentwickeltes Modell durch ein On-Device-Modell aus, das auf dem Gerät läuft.
Laut Apples heute veröffentlichtem Papier heißt dieses On-Device-Modell AFM-on-device und enthält etwa 3 Milliarden Parameter, weit weniger als die hunderte Milliarden Parameter der Modelle von OpenAI und Meta.
Für komplexere Aufgaben hat Apple auch ein Cloud-Modell namens AFM-server entwickelt. Obwohl die genaue Größe noch nicht bekannt gegeben wurde, soll es mit einem System namens "Private Cloud Compute" in Apples Cloud-Infrastruktur laufen, um Benutzerdaten zu schützen.
Wie in der Abbildung unten gezeigt, übertrifft AFM-on-device in menschlichen Tests Open-Source-Modelle wie Phi-3-mini, Mistral-7B und Gemma-2B und nähert sich dem Niveau von Llama-3-8B.
AFM-server übertrifft in menschlichen Tests geschlossene Modelle wie Llama-3-70B, Mixtral-8x22B und GPT-3.5 und nähert sich den Fähigkeiten von GPT-4.
Gleichzeitig übertrifft AFM-server in Tests zur Anweisungsbefolgung GPT-4, während AFM-on-device Open-Source-Modelle wie Llama-3-8B und Phi-3-mini übertrifft.