Pomme défie GPT-4 avec un modèle d'IA maison sans GPU

La première version d'Apple Intelligence et un rapport technique de 47 pages sur le grand modèle d'IA développé par Apple sont publiés.

La première version d'Apple Intelligence a mis en ligne les fonctionnalités d'IA suivantes :

1. Mise à niveau de Siri. Après son activation, Siri dispose d'un effet lumineux sur les bords de l'écran, peut comprendre les instructions mal formulées des utilisateurs et répondre aux questions relatives à la résolution des problèmes des produits Apple.

2. Mise à niveau des outils d'écriture. La nouvelle version d'iOS fournit le service de génération de texte d'Apple ; elle prend également en charge la génération d'e-mails et de messages par IA, la transcription vocale et le résumé, etc.

3. Mise à niveau des outils visuels. Cette version offre une recherche d'images plus intelligente et des fonctions de création de souvenirs vidéo.

De nombreuses fonctionnalités d'IA annoncées par Apple en juin n'apparaissent pas dans la version bêta pour développeurs d'iOS 18.1 ([Article sur l'IA d'Apple]), Apple prévoit de les lancer l'année prochaine, notamment :

1. D'autres améliorations de Siri, y compris l'analyse des informations personnelles et l'exécution de tâches en liaison avec des applications externes.

2. Des fonctions de génération d'images et de vision, y compris la génération d'emojis et le nettoyage automatique des photos, etc.

3. L'intégration de ChatGPT d'OpenAI, etc.

iPadOS 18.1 et macOS Sequoia 15.1 ont également intégré les nouvelles fonctionnalités d'Apple Intelligence, mais elles ne sont actuellement ouvertes qu'aux développeurs Apple enregistrés qui paient 99 dollars par an.

Dans le document publié aujourd'hui, Apple a révélé ses ### deux modèles de base Apple (Apple Foundation Model, abrégé "AFM").

Lien vers le document : https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf

L'un est le ### modèle embarqué de 3 milliards de paramètres ### AFM-on-device, optimisé pour fonctionner efficacement sur iPhone et autres appareils ; l'autre est le modèle cloud ### AFM-server, dont les paramètres n'ont pas encore été divulgués.

Le rapport interprète pour la première fois ### l'architecture du modèle, les données d'entraînement, le processus d'entraînement, l'optimisation de l'inférence et les résultats d'évaluation de l'AFM, et mentionne que l'entraînement du modèle sous-jacent a utilisé un total de ### 10240 TPU Google, sans mentionner les GPU NVIDIA.

Selon la description du document, le grand modèle développé par Apple ### surpasse GPT-4 dans les tests de ### suivi des instructions et de résumé de texte.

I. Première démonstration de l'IA d'Apple : Siri "transformé et repensé", amélioration de l'écriture en un clic

Cette fois-ci, les fonctionnalités d'Apple Intelligence mises en ligne dans la version bêta pour développeurs d'iOS 18.1 couvrent principalement Siri, les outils d'écriture, les résumés d'e-mails, la recherche en langage naturel de photos, etc.

1. Tout l'écran s'illumine, Siri se transforme

Le changement de Siri commence par une nouvelle apparence, le point lumineux circulaire qui apparaissait auparavant sur l'écran est remplacé par une lumière entourant l'écran pour indiquer que l'assistant est actif.

Lorsque les développeurs ne veulent pas parler fort à Siri, ils peuvent passer des commandes vocales à la saisie : il suffit de double-cliquer en bas de l'écran de l'iPhone ou de l'iPad pour faire apparaître le clavier pour saisir des requêtes et des commandes Siri.

Siri est désormais capable de comprendre le contexte de plusieurs instructions. Par exemple, les développeurs peuvent demander à Siri de créer un agenda, puis de créer un rappel, sans avoir à répéter ce qui a été dit précédemment.

2. Lancement des outils d'écriture, amélioration des phrases, résumés d'e-mails

Les outils d'écriture sont un argument de vente majeur d'Apple Intelligence, permettant aux développeurs de faire des suggestions sur le ton et la formulation, de corriger le texte et de résumer les points clés.

La fonction de transcription d'enregistrements est également disponible, dans la version bêta pour développeurs d'iOS 18.1, l'application Dictaphone ainsi que l'application Notes intègrent désormais la fonction de transcription d'enregistrements.

La fonction d'écriture est disponible à la fois pour les applications intégrées des appareils Apple et pour les applications tierces utilisant le système de saisie de texte standard.

L'application Mail identifie désormais intelligemment les e-mails prioritaires et affichera une fenêtre flottante en haut de la boîte de réception pour rappeler aux développeurs des échéances spécifiques ou éviter d'oublier des actions importantes.

De plus, la nouvelle version prend en charge un mode de concentration, appelé "Réduire les interruptions", qui utilisera l'IA pour identifier et filtrer les notifications importantes.

3. Recherche de photos par interaction en langage naturel, génération de courts métrages par IA

Les développeurs peuvent désormais utiliser le langage naturel pour rechercher des vidéos et des photos. Par exemple, en recherchant "une photo de ma fille mangeant un cheeseburger", Apple fournira les résultats de recherche correspondants. Cela devrait faciliter la recherche d'images ou de moments précis dans les vidéos sans avoir à utiliser des mots-clés plus génériques.

La nouvelle fonction de souvenirs vidéo (Movie memories) permet aux développeurs de saisir des invites spécifiques pour créer des films à partir des photos et vidéos stockées dans l'application Photos.

Les développeurs peuvent saisir leurs propres invites ou utiliser celles suggérées par Apple Intelligence pour obtenir des films générés intelligemment, avec des chapitres et des thèmes clairs.

Ces fonctionnalités d'Apple Intelligence déjà en ligne ont encore quelques limitations d'utilisation.

Actuellement, Apple Intelligence n'est ouvert qu'aux développeurs Apple enregistrés qui paient 99 dollars par an, y compris les trois versions pour iOS, iPad et Mac. Les développeurs doivent définir la région de l'appareil sur les États-Unis et la langue sur l'anglais américain.

De plus, un rapport précédent de juin mentionnait qu'Apple Intelligence nécessite des appareils de niveau iPhone 15 Pro, iPhone 15 Pro Max ou iPad et Mac équipés de M1 ou supérieur.

II. Un document de 47 pages interprète le grand modèle d'Apple, surpassant GPT-4 dans les tests de résumé de texte, etc.

Comparé aux téléphones IA actuels de diverses entreprises, une caractéristique majeure du modèle développé par Apple est l'introduction d'un modèle embarqué fonctionnant sur l'appareil.

Selon le dernier document publié par Apple aujourd'hui, ce modèle embarqué s'appelle AFM-on-device et contient environ 3 milliards de paramètres, bien moins que les centaines de milliards de paramètres des modèles d'OpenAI et Meta.

Pour effectuer des tâches plus complexes, Apple a également développé un modèle cloud appelé AFM-server. Bien que sa taille exacte n'ait pas été révélée, il est conçu pour fonctionner dans l'infrastructure cloud d'Apple en utilisant un système appelé "Private Cloud Compute" pour protéger les données des utilisateurs.

Comme le montre l'image ci-dessous, AFM-on-device surpasse les modèles open source tels que Phi-3-mini, Mistral-7B, Gemma-2B dans les tests humains, s'approchant du niveau de Llama-3-8B.

AFM-server surpasse les modèles propriétaires tels que Llama-3-70B, Mixtral-8x22B, GPT-3.5 dans les tests humains, s'approchant des capacités de GPT-4.

En même temps, en termes de suivi des instructions, AFM-server surpasse GPT-4 dans les tests, tandis qu'AFM-on-device surpasse les modèles open source tels que Llama-3-8B, Phi-3-mini, etc.