A funcionalidade de voz do GPT-4o finalmente chegou conforme o previsto, trazendo a versão de ficção científica de "Her" para a realidade. Alguns usuários que receberam acesso ao teste beta já começaram a experimentar este novo recurso. Atualmente, a OpenAI oferece apenas 4 vozes pré-definidas. Além disso, o novo modelo GPT-4o aumentou significativamente o número de tokens de saída para 64K, 16 vezes mais que o anterior.
Antes do final de julho, o modo de voz do GPT-4o iniciou seus testes beta, com alguns usuários do ChatGPT Plus recebendo permissão de uso. A OpenAI afirma que o modo de voz avançado oferece uma experiência de conversação mais natural e em tempo real, onde os usuários podem interromper livremente e o sistema pode até perceber e responder às emoções do usuário. Espera-se que todos os usuários do ChatGPT Plus tenham acesso a este recurso neste outono.
Além disso, recursos mais poderosos como vídeo e compartilhamento de tela serão lançados posteriormente. Os usuários poderão ativar a câmera para interagir "face a face" com o ChatGPT.
Alguns usuários com acesso ao teste beta já começaram a explorar vários cenários de aplicação do modo de voz do GPT-4o. Por exemplo, alguns o estão usando como "professor de línguas estrangeiras" para praticar a fala. O ChatGPT pode corrigir a pronúncia dos usuários em palavras como Croissant e Baguette.
Simultaneamente, o número de tokens de saída do GPT-4o aumentou significativamente. A OpenAI lançou silenciosamente uma versão beta do novo modelo gpt-4o-64k-output-alpha em sua página oficial, aumentando os tokens de saída de 4.000 para 64.000. Isso significa que os usuários podem obter cerca de 4 roteiros completos de filmes longos de uma só vez.
A OpenAI afirma que o lançamento tardio da funcionalidade de voz do GPT-4o se deve aos testes de segurança e qualidade realizados nos últimos meses. Eles testaram as capacidades de voz do GPT-4o em 45 idiomas com mais de 100 membros da equipe vermelha. Para proteger a privacidade dos usuários, o sistema usa apenas 4 "vozes pré-definidas" para conversação e criou um sistema para bloquear a saída de outras vozes. Além disso, foram implementadas medidas de filtragem de conteúdo para bloquear a geração de conteúdo violento e protegido por direitos autorais.
A OpenAI planeja lançar um relatório detalhado no início de agosto, descrevendo as capacidades, limitações e resultados da avaliação de segurança do GPT-4o.
Os usuários compartilharam vários casos de uso do modo de voz do GPT-4o, incluindo beatbox, contar piadas com diferentes emoções e imitar sons de animais. Os testes mostram que o modo de voz avançado do ChatGPT responde rapidamente, quase sem atraso, e pode imitar com precisão várias vozes e sotaques.
Além da funcionalidade de voz, o GPT-4o com suporte para maior saída de tokens também foi lançado. A OpenAI anunciou que está oferecendo aos testadores a versão Alpha do GPT-4o, que suporta até 64K tokens de saída por solicitação, equivalente a um romance de 200 páginas. Os testadores podem acessar a funcionalidade de saída longa do GPT-4o através de "gpt-4o-64k-output-alpha".
O preço do novo modelo aumentou, custando $6 por milhão de tokens de entrada e $18 por milhão de tokens de saída. Embora os tokens de saída sejam 16 vezes maiores que o GPT-4o, o preço também aumentou em $3.
O pesquisador Simon Willison afirma que a saída longa é principalmente usada para casos de uso de transformação de dados, como traduzir documentos de um idioma para outro ou extrair dados estruturados de documentos. Anteriormente, o modelo com a saída mais longa era o GPT-4o mini, com 16K tokens.