La fonctionnalité vocale de GPT-4o est enfin arrivée comme prévu, faisant entrer la version science-fiction de "Her" dans la réalité. Certains utilisateurs ayant accès aux tests en version bêta ont déjà commencé à essayer cette nouvelle fonctionnalité. Actuellement, OpenAI ne propose que 4 voix prédéfinies. De plus, la sortie de tokens du nouveau modèle GPT-4o a considérablement augmenté pour atteindre 64K, soit 16 fois plus qu'auparavant.
Juste avant la fin de juillet, le mode vocal de GPT-4o a commencé ses tests en version bêta, avec certains utilisateurs de ChatGPT Plus ayant déjà obtenu l'autorisation d'utilisation. OpenAI affirme que le mode vocal avancé offre une expérience de conversation plus naturelle et en temps réel, où les utilisateurs peuvent interrompre librement, et le système peut même percevoir et répondre aux émotions des utilisateurs. Il est prévu que tous les utilisateurs de ChatGPT Plus puissent utiliser cette fonctionnalité cet automne.
De plus, des fonctionnalités plus puissantes telles que le partage vidéo et d'écran seront également lancées ultérieurement. Les utilisateurs pourront activer leur caméra pour communiquer "face à face" avec ChatGPT.
Certains utilisateurs ayant accès aux tests en version bêta ont déjà commencé à explorer diverses applications du mode vocal de GPT-4o. Par exemple, certains l'utilisent comme "coach de langue étrangère" pour pratiquer l'expression orale. ChatGPT peut corriger la prononciation des utilisateurs, comme pour les mots "Croissant" et "Baguette".
Parallèlement, la sortie de tokens de GPT-4o a considérablement augmenté. OpenAI a récemment lancé discrètement un nouveau modèle de test gpt-4o-64k-output-alpha sur son site officiel, augmentant la sortie de tokens de 4000 à 64000. Cela signifie que les utilisateurs peuvent obtenir environ 4 scripts de films complets en une seule fois.
OpenAI explique que le lancement tardif de la fonctionnalité vocale de GPT-4o est dû aux tests de sécurité et de qualité menés ces derniers mois. Ils ont testé les capacités vocales de GPT-4o dans 45 langues avec plus de 100 membres d'une équipe rouge. Pour protéger la vie privée des utilisateurs, le système n'utilise que 4 "voix prédéfinies" pour la conversation et a créé un système pour bloquer la sortie d'autres voix. De plus, des mesures de filtrage de contenu ont été mises en place pour bloquer la génération de contenu violent et protégé par des droits d'auteur.
OpenAI prévoit de publier un rapport détaillé début août, présentant les capacités, les limites et les résultats de l'évaluation de sécurité de GPT-4o.
Les utilisateurs ont partagé divers cas d'utilisation du mode vocal de GPT-4o, notamment des performances de beatbox, des blagues racontées avec différentes émotions, et l'imitation de cris d'animaux. Les tests montrent que le mode vocal avancé de ChatGPT répond rapidement, presque sans délai, et peut imiter avec précision diverses voix et accents.
En plus de la fonctionnalité vocale, GPT-4o prenant en charge une plus grande sortie de tokens a également été lancé. OpenAI a annoncé la mise à disposition de la version Alpha de GPT-4o aux testeurs, prenant en charge jusqu'à 64K tokens de sortie par requête, soit l'équivalent d'un roman de 200 pages. Les testeurs peuvent accéder à la fonctionnalité de longue sortie de GPT-4o via "gpt-4o-64k-output-alpha".
Le prix du nouveau modèle a augmenté, à 6 dollars par million de tokens d'entrée et 18 dollars par million de tokens de sortie. Bien que la sortie de tokens soit 16 fois celle de GPT-4o, le prix a également augmenté de 3 dollars.
Le chercheur Simon Willison affirme que la longue sortie est principalement utilisée pour les cas d'utilisation de transformation de données, comme la traduction de documents d'une langue à une autre, ou l'extraction de données structurées à partir de documents. Auparavant, le modèle avec la plus longue sortie était GPT-4o mini, avec 16K tokens.