GPT-4o Sprachfunktion ist endlich wie erwartet eingetroffen, die Science-Fiction-Version von "Her" wird Realität. Einige Nutzer, die Zugang zur Graustufen-Testphase haben, haben bereits begonnen, diese neue Funktion auszuprobieren. Derzeit bietet OpenAI nur 4 voreingestellte Stimmen an. Darüber hinaus wurde die Ausgabe-Token-Anzahl des neuen GPT-4o-Modells deutlich auf 64K erhöht, was dem 16-fachen der vorherigen Menge entspricht.
Noch vor Ende Juli wurde der Graustufen-Test für den GPT-4o Sprachmodus gestartet, und einige ChatGPT Plus-Nutzer haben bereits Zugriff erhalten. OpenAI erklärt, dass der fortgeschrittene Sprachmodus eine natürlichere Echtzeit-Gesprächserfahrung bietet, bei der Nutzer jederzeit unterbrechen können und das System sogar die Emotionen des Nutzers wahrnehmen und darauf reagieren kann. Es wird erwartet, dass alle ChatGPT Plus-Nutzer im Herbst dieses Jahres Zugang zu dieser Funktion erhalten werden.
Darüber hinaus werden in Kürze noch leistungsfähigere Funktionen wie Video- und Bildschirmfreigabe eingeführt. Nutzer werden in der Lage sein, ihre Kamera zu aktivieren und "von Angesicht zu Angesicht" mit ChatGPT zu kommunizieren.
Einige Nutzer mit Zugang zur Graustufen-Testphase haben bereits begonnen, verschiedene Anwendungsszenarien für den GPT-4o Sprachmodus zu erkunden. Zum Beispiel nutzen einige es als "Fremdsprachentrainer" zur Übung der Aussprache. ChatGPT kann die Aussprache der Nutzer korrigieren, wie bei Wörtern wie Croissant und Baguette.
Gleichzeitig wurde die Ausgabe-Token-Anzahl von GPT-4o deutlich erhöht. OpenAI hat kürzlich still und leise eine Testversion des neuen Modells gpt-4o-64k-output-alpha auf seiner offiziellen Website eingeführt, das die Ausgabe-Token von ursprünglich 4000 auf 64000 erhöht. Dies bedeutet, dass Nutzer auf einmal etwa 4 vollständige Langfilm-Drehbücher erhalten können.
OpenAI erklärt, dass die GPT-4o Sprachfunktion erst jetzt eingeführt wurde, weil in den letzten Monaten Sicherheits- und Qualitätstests durchgeführt wurden. Sie haben mit über 100 Red-Team-Mitgliedern die Sprachfähigkeiten von GPT-4o in 45 Sprachen getestet. Zum Schutz der Privatsphäre der Nutzer verwendet das System nur 4 "voreingestellte Stimmen" für Gespräche und hat ein System entwickelt, um die Ausgabe anderer Stimmen zu blockieren. Darüber hinaus wurden Inhaltsfiltermaßnahmen ergriffen, um die Erzeugung von gewalttätigen und urheberrechtlich geschützten Inhalten zu verhindern.
OpenAI plant, Anfang August einen detaillierten Bericht zu veröffentlichen, der die Fähigkeiten, Grenzen und Sicherheitsbewertungsergebnisse von GPT-4o vorstellt.
Nutzer haben verschiedene Anwendungsfälle für den GPT-4o Sprachmodus geteilt, darunter die Durchführung von Beatbox-Rhythmen, das Erzählen von Witzen mit verschiedenen Emotionen und die Nachahmung von Tiergeräuschen. Tests zeigen, dass der fortgeschrittene Sprachmodus von ChatGPT schnell reagiert, fast ohne Verzögerung, und verschiedene Stimmen und Akzente genau nachahmen kann.
Neben der Sprachfunktion wurde auch GPT-4o mit Unterstützung für größere Token-Ausgaben eingeführt. OpenAI kündigte an, Testern eine Alpha-Version von GPT-4o zur Verfügung zu stellen, die bis zu 64K Token pro Anfrage ausgeben kann, was etwa 200 Seiten eines Romans entspricht. Tester können über "gpt-4o-64k-output-alpha" auf die Langausgabefunktion von GPT-4o zugreifen.
Die Preise für das neue Modell sind gestiegen, mit 6 USD pro Million Eingabe-Token und 18 USD pro Million Ausgabe-Token. Obwohl die Ausgabe-Token das 16-fache von GPT-4o betragen, ist der Preis um 3 USD gestiegen.
Der Forscher Simon Willison erklärt, dass die lange Ausgabe hauptsächlich für Datentransformationsanwendungen verwendet wird, wie die Übersetzung von Dokumenten von einer Sprache in eine andere oder die Extraktion strukturierter Daten aus Dokumenten. Zuvor war das Modell mit der längsten Ausgabe GPT-4o mini mit 16K Token.