A OpenAI finalmente lançou oficialmente a versão Alpha do modo de voz avançado (Advanced Voice Mode) do GPT-4o para alguns usuários Plus.
Este novo recurso permite que os usuários interrompam a conversa a qualquer momento, e o sistema também pode perceber e responder às flutuações emocionais dos usuários. No entanto, os recursos de compartilhamento de vídeo e tela, que eram muito aguardados, serão lançados posteriormente.
A OpenAI planeja expandir gradualmente o número de usuários de teste, e espera-se que todos os membros Plus possam experimentar este recurso neste outono.
Alguns usuários internacionais já receberam acesso ao teste e compartilharam suas experiências:
-
Como ferramenta de aprendizado de idiomas:
- O GPT-4o pode atuar como um parceiro de prática de línguas estrangeiras, demonstrando paciência e atenção aos detalhes.
- Pode alternar fluentemente entre vários idiomas, como francês, espanhol, urdu, etc.
- O efeito em chinês ainda tem espaço para melhorias, soando um pouco mecânico.
-
Funções de entretenimento:
- Capaz de entender e contar piadas.
- Pode contar histórias de terror e simular efeitos sonoros correspondentes.
- Capaz de recitar trava-línguas e realizar beatbox.
-
Função de compreensão de vídeo (experimentada por poucos usuários):
- Capaz de entender o conteúdo do vídeo em tempo real e interagir.
- Pode realizar tradução de vídeo em tempo real.
Atualmente, o GPT-4o oferece quatro opções de voz: Juniper, Breeze, Cove e Ember, todas de dubladores profissionais. A OpenAI também desenvolveu novos filtros para evitar a geração de conteúdo musical ou de áudio que possa infringir direitos autorais.
Embora o ritmo de lançamento de produtos da OpenAI seja instável, sua capacidade técnica ainda é amplamente reconhecida. Os usuários têm altas expectativas para os novos recursos da OpenAI, ao mesmo tempo em que esperam que a empresa lance rapidamente versões completas e mais produtos inovadores.
[Exemplo de notificação oficial da OpenAI]