GPT-4o finalmente llega con funcionalidad de voz, llevando la versión de ciencia ficción de "Her" a la realidad. Algunos usuarios en pruebas beta ya han comenzado a experimentar con esta nueva función. Actualmente, OpenAI solo ofrece 4 voces preestablecidas. Además, el nuevo modelo GPT-4o ha aumentado significativamente los tokens de salida a 64K, 16 veces más que antes.
Justo antes de que termine julio, GPT-4o inició pruebas beta del modo de voz, con algunos usuarios de ChatGPT Plus obteniendo acceso. OpenAI afirma que el modo de voz avanzado ofrece una experiencia de conversación más natural y en tiempo real, donde los usuarios pueden interrumpir libremente y el sistema puede incluso percibir y responder a las emociones del usuario. Se espera que todos los usuarios de ChatGPT Plus puedan usar esta función este otoño.
Además, funciones más potentes como video y compartir pantalla se lanzarán más adelante. Los usuarios podrán activar la cámara para comunicarse "cara a cara" con ChatGPT.
Algunos usuarios con acceso a la prueba beta han comenzado a explorar varios escenarios de aplicación del modo de voz de GPT-4o. Por ejemplo, algunos lo usan como "entrenador de idiomas extranjeros" para practicar el habla. ChatGPT puede corregir la pronunciación del usuario en palabras como Croissant y Baguette.
Mientras tanto, la salida de tokens de GPT-4o ha aumentado significativamente. OpenAI lanzó silenciosamente un nuevo modelo de prueba gpt-4o-64k-output-alpha en su página oficial, aumentando los tokens de salida de 4000 a 64000. Esto significa que los usuarios pueden obtener aproximadamente 4 guiones completos de películas largas a la vez.
OpenAI afirma que la razón por la que recién ahora lanzaron la función de voz de GPT-4o es porque han estado realizando pruebas de seguridad y calidad durante los últimos meses. Probaron las capacidades de voz de GPT-4o en 45 idiomas con más de 100 miembros del equipo rojo. Para proteger la privacidad del usuario, el sistema solo usa 4 "voces preestablecidas" para conversar y creó un sistema para bloquear la salida de otras voces. Además, se han implementado medidas de filtrado de contenido para bloquear la generación de contenido violento y con derechos de autor.
OpenAI planea publicar un informe detallado a principios de agosto sobre las capacidades, limitaciones y resultados de la evaluación de seguridad de GPT-4o.
Los usuarios han compartido varios casos de uso del modo de voz de GPT-4o, incluyendo beatboxing, contar chistes con diferentes emociones, imitar sonidos de animales, etc. Las pruebas muestran que el modo de voz avanzado de ChatGPT responde rápidamente, casi sin retraso, y puede imitar con precisión varios sonidos y acentos.
Además de la función de voz, también se lanzó GPT-4o con soporte para una mayor salida de tokens. OpenAI anunció que proporcionará a los probadores una versión Alpha de GPT-4o, que admite hasta 64K tokens de salida por solicitud, equivalente a una novela de 200 páginas. Los probadores pueden acceder a la función de salida larga de GPT-4o a través de "gpt-4o-64k-output-alpha".
El precio del nuevo modelo ha aumentado, costando $6 por millón de tokens de entrada y $18 por millón de tokens de salida. Aunque los tokens de salida son 16 veces los de GPT-4o, el precio también ha aumentado en $3.
El investigador Simon Willison afirma que la salida larga se usa principalmente para casos de uso de transformación de datos, como traducir documentos de un idioma a otro o extraer datos estructurados de documentos. Antes de esto, el modelo de salida más largo era GPT-4o mini, con 16K tokens.