アップルがGPUなしの独自開発AIモデルでGPT-4に挑戦

Appleインテリジェンスの最初のバージョンと、47ページにわたるアップルの自社開発大規模言語モデル技術レポートが重要発表。

Appleインテリジェンスの最初のバージョンで以下のAI機能が導入されました:

1. Siriのアップグレード。Siri起動時に画面の端が光る効果があり、ユーザーの不明瞭な指示を理解し、アップル製品のトラブルシューティングに関する質問に答えられるようになりました。

2. ライティングツールのアップグレード。新しいiOSバージョンではアップルのテキスト生成サービスを提供。AIによるメール・メッセージ生成、音声転写の要約などの機能もサポート。

3. ビジュアルツールのアップグレード。このバージョンではより賢い画像検索と思い出ムービー作成機能を提供。

6月に発表されたアップルのAI機能の多くはiOS 18.1開発者ベータ版には含まれておらず、アップルは来年の導入を計画しています。これには以下が含まれます:

1. Siriのその他の改善点（個人情報分析、外部アプリとの連携によるタスク実行など）

2. 画像生成機能（絵文字の生成、写真の自動クリーンアップなどの視覚関連機能）

3. OpenAIのChatGPTの統合など

iPadOS 18.1、macOS Sequoia 15.1にも関連するAppleインテリジェンスの新機能が組み込まれていますが、現在は年間99ドルを支払う登録アップル開発者のみが利用可能です。

本日発表された論文で、アップルは### 2つのアップル基盤モデル（Apple Foundation Model、略して「AFM」）を公開しました。

論文リンク：https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf

1つは### 30億パラメータのオンデバイスモデル### AFM-on-deviceで、iPhoneやその他のデバイスで効率的に動作するよう最適化されています。もう1つはクラウドモデル### AFM-serverで、モデルパラメータはまだ公開されていません。

レポートでは初めてAFMの### モデルアーキテクチャ、トレーニングデータ、トレーニングプロセス、推論の最適化、評価結果について解説し、背後のモデルトレーニングには累計### 10,240個のGoogle TPUを使用し、NVIDIAのGPUには言及していないと述べています。

論文の記述によると、アップルの自社開発大規模言語モデルは### 指示への従順さ、テキスト要約の面でのテストで### GPT-4を上回っています。

1. アップルAIの初お披露目：Siriの「変身と脳の入れ替え」、ワンクリックでライティングを洗練

今回、アップルのiOS 18.1開発者ベータ版で導入されたAppleインテリジェンス機能は、主にSiri、ライティングツール、メールダイジェスト、写真の自然言語検索などをカバーしています。

1. 画面全体が光の輪で輝く、Siriの変身

Siriの変化は、まず新しい外観です。これまで画面に表示されていた円形の光の点が、画面を囲む発光リングに置き換えられ、アシスタントがアクティブ状態であることを示します。

開発者がSiriに大声で話しかけたくない場合、音声コマンドからタイピングに切り替えることができます：iPhoneやiPadの画面下部をダブルタップするとキーボードが表示され、Siriへの問い合わせやコマンドを入力できます。

Siriは複数の指示の文脈を理解できるようになりました。例えば、開発者はSiriにスケジュールの作成を依頼し、その後リマインダーの作成を依頼することができ、前に言ったことを繰り返す必要がありません。

2. ライティングツールの導入、文章の洗練化、メールダイジェスト

ライティングツールはAppleインテリジェンスの大きな売りの一つで、開発者はトーンや言い回しについての提案を受け、テキストを校正し、要点をまとめることができます。

音声転写機能も体験できるようになり、iOS 18.1開発者ベータ版では、ボイスメモアプリとNotesアプリに音声転写機能が内蔵されています。

ライティング機能はアップルデバイスの内蔵アプリケーションだけでなく、標準入力テキストシステムを使用するサードパーティアプリケーションでも利用できます。

メールアプリは現在、優先メールをスマートに識別し、受信トレイの上部に通知ポップアップを表示して、開発者に特定の締め切りを知らせたり、重要なアクションアイテムを忘れないようにします。

さらに、新バージョンでは「集中モード」と呼ばれる「割り込み軽減（Reduce Interruptions）」をサポートしており、このモードではAIを使用して重要な通知を識別してフィルタリングします。

3. 自然言語対話で写真を検索、AIで短編ビデオを生成

開発者はすでに自然言語を使用してビデオや写真を検索できます。例えば、「娘がチーズバーガーを食べている写真」を検索すると、アップルは対応する検索結果を提供します。これにより、より一般的なキーワードを使用せずに、ビデオ内の特定の画像や正確な瞬間を見つけることがより簡単になるはずです。

新しい「ムービーメモリー（Movie memories）」機能では、開発者が特定のプロンプトを入力し、写真アプリに保存されている写真やビデオを使用して映画を作成できます。

開発者は自分のプロンプトを入力するか、Appleインテリジェンスが提案するプロンプトを使用して、明確な章立てとテーマを持つインテリジェントに生成された映画を得ることができます。

Appleインテリジェンスのこれらの既に導入された機能にはまだいくつかの使用制限があります。

現在、Appleインテリジェンスは年間99ドルを支払う登録アップル開発者のみが利用可能で、iOS、iPad、Mac向けの3つのバージョンが含まれます。開発者はデバイスの地域を米国に、言語を米国英語に設定する必要があります。

さらに、6月の報道では、AppleインテリジェンスはiPhone 15 Pro、iPhone 15 Pro Max、またはM1搭載のiPadとMac以上の構成を要求すると言及されていました。

2. 47ページの論文がアップルの大規模言語モデルを解説、テキスト要約などのテストでGPT-4を上回る

現在の各社のAIスマートフォンと比較して、アップルの自社開発モデルの大きな特徴は、デバイス上で動作するオンデバイスモデルを導入したことです。

アップルが本日発表した最新の論文によると、このオンデバイスモデルはAFM-on-deviceと呼ばれ、約30億のパラメータを含んでおり、OpenAIやMetaなどの企業のモデルの数千億パラメータレベルよりはるかに小さいです。

より複雑なタスクを実行するために、アップルはクラウドモデルAFM-serverも開発しました。具体的なサイズはまだ明らかにされていませんが、「プライベートクラウドコンピュート（Private Cloud Compute）」と呼ばれるシステムを使用してアップルのクラウドインフラストラクチャ上で動作し、ユーザーデータを保護することを目的としています。

以下の図に示すように、AFM-on-deviceは人間によるテストでPhi-3-mini、Mistral-7B、Gemma-2Bなどのオープンソースモデルを上回り、Llama-3-8Bのレベルに近づいています。

AFM-serverは人間によるテストでLlama-3-70B、Mixtral-8x22B、GPT-3.5などのクローズドソースモデルを上回り、GPT-4の能力に近づいています。

同時に、指示への従順さの面では、AFM-serverのテストがGPT-4を上回り、AFM-on-deviceはLlama-3-8B、Phi-3-miniなどのオープンソースモデルを上回っています。