GPT-4oの音声機能がついに予定通りに到着し、SF版「Her」が現実のものとなりました。一部のグレースケールテストユーザーがこの新機能を試し始めています。現在、OpenAIは4種類のプリセット音声のみを提供しています。さらに、新しいGPT-4oモデルの出力トークンも大幅に増加し、64Kとなり、以前の16倍になりました。
7月末までに、GPT-4o音声モードのグレースケールテストが開始され、一部のChatGPT Plusユーザーがアクセス権を得ました。OpenAIによると、高度な音声モードはより自然でリアルタイムな会話体験を提供し、ユーザーは自由に中断でき、システムはユーザーの感情を感知して応答することさえできるとのことです。今年の秋までに、すべてのChatGPT Plusユーザーがこの機能を利用できるようになる予定です。
さらに、ビデオや画面共有などのより強力な機能も後日リリースされる予定です。ユーザーはカメラをオンにしてChatGPTと「対面」で交流することができるようになります。
グレースケールテストの資格を得たユーザーの中には、GPT-4o音声モードのさまざまな応用シナリオを探索し始めた人もいます。例えば、「外国語コーチ」として使用し、スピーキングの練習を支援するケースがあります。ChatGPTはCroissant(クロワッサン)やBaguette(バゲット)などの単語の発音を修正することができます。
同時に、GPT-4oの出力トークンが大幅に増加しました。OpenAIは最近、公式ウェブページで静かにテストバージョンの新モデルgpt-4o-64k-output-alphaをリリースし、出力トークンを当初の4000から64000に増やしました。これは、ユーザーが一度に約4本の完全な長編映画脚本を取得できることを意味します。
OpenAIによると、GPT-4o音声機能の導入が遅れたのは、過去数ヶ月間、安全性と品質のテストを行っていたためです。100人以上のレッドチームメンバーとともに、GPT-4oの音声能力を45の言語でテストしました。ユーザーのプライバシーを保護するため、システムは会話に4種類の「プリセット音声」のみを使用し、他の音声の出力を阻止するシステムを作成しました。さらに、暴力的な内容や著作権に関わる内容の生成を阻止するコンテンツフィルタリング措置も講じられています。
OpenAIは8月初旬に詳細なレポートを発表し、GPT-4oの能力、制限、安全性評価の結果を紹介する予定です。
ユーザーはGPT-4o音声モードの多様な応用例を共有しており、リズミカルな口技の演奏、異なる感情での冗談の語り、動物の鳴き声の模倣などが含まれています。テストによると、ChatGPTの高度な音声モードは応答速度が速く、ほとんど遅延がなく、さまざまな声やアクセントを正確に模倣できることが示されています。
音声機能に加えて、より大きなトークン出力をサポートするGPT-4oも同時にリリースされました。OpenAIはテスターにGPT-4o Alphaバージョンを提供し、1回のリクエストで最大64Kトークンの出力をサポートすると発表しました。これは200ページの小説に相当します。テスターは「gpt-4o-64k-output-alpha」を通じてGPT-4oの長い出力機能にアクセスできます。
新モデルの価格は上昇し、入力トークン100万あたり6ドル、出力トークン100万あたり18ドルとなっています。出力トークンはGPT-4oの16倍ですが、価格も3ドル上昇しています。
研究者のSimon Willisonによると、長い出力は主にデータ変換のユースケース、例えば文書を一つの言語から別の言語に翻訳したり、文書から構造化データを抽出したりする場合に使用されるとのことです。これまでの最長出力モデルはGPT-4o miniで、16Kトークンでした。