GPT-4o функция голосового общения наконец-то появилась, как и ожидалось, научно-фантастическая версия "Her" стала реальностью. Некоторые пользователи, получившие доступ к бета-тестированию, уже начали пробовать эту новую функцию. В настоящее время OpenAI предоставляет только 4 предустановленных голоса. Кроме того, новая модель GPT-4o значительно увеличила выходной токен до 64K, что в 16 раз больше, чем раньше.
Перед окончанием июля началось бета-тестирование голосового режима GPT-4o, и некоторые пользователи ChatGPT Plus уже получили доступ к нему. OpenAI заявляет, что продвинутый голосовой режим обеспечивает более естественный и интерактивный опыт общения, пользователи могут свободно прерывать разговор, а система даже может воспринимать и реагировать на эмоции пользователя. Ожидается, что этой осенью все пользователи ChatGPT Plus смогут использовать эту функцию.
Кроме того, более мощные функции, такие как видео и совместное использование экрана, будут выпущены позже. Пользователи смогут включить камеру для "лицом к лицу" общения с ChatGPT.
Некоторые пользователи, получившие доступ к бета-тестированию, уже начали исследовать различные сценарии применения голосового режима GPT-4o. Например, некоторые используют его в качестве "тренера по иностранному языку" для практики разговорной речи. ChatGPT может исправлять произношение пользователя, например, слов Croissant (круассан) и Baguette (багет).
В то же время, выходной токен GPT-4o значительно увеличился. OpenAI недавно тихо запустила на своем официальном сайте тестовую версию новой модели gpt-4o-64k-output-alpha, увеличив выходной токен с первоначальных 4000 до 64000. Это означает, что пользователи могут получить около 4 полных длинных киносценариев за один раз.
OpenAI заявляет, что причина, по которой они только сейчас выпустили голосовую функцию GPT-4o, заключается в том, что последние несколько месяцев они проводили тестирование безопасности и качества. Они провели тестирование голосовых возможностей GPT-4o на 45 языках с более чем 100 членами красной команды. Для защиты конфиденциальности пользователей система использует только 4 "предустановленных голоса" для общения и создала систему для блокировки вывода других голосов. Кроме того, были приняты меры по фильтрации контента для блокировки генерации насильственного и защищенного авторским правом контента.
OpenAI планирует выпустить подробный отчет в начале августа, описывающий возможности, ограничения и результаты оценки безопасности GPT-4o.
Пользователи поделились различными примерами применения голосового режима GPT-4o, включая исполнение ритмичного битбокса, рассказывание шуток с разными эмоциями, имитацию звуков животных и т.д. Тесты показали, что продвинутый голосовой режим ChatGPT реагирует быстро, практически без задержек, и может точно имитировать различные голоса и акценты.
Помимо голосовой функции, также была выпущена версия GPT-4o с поддержкой большего вывода токенов. OpenAI объявила о предоставлении тестировщикам альфа-версии GPT-4o, которая поддерживает вывод до 64K токенов за запрос, что эквивалентно 200 страницам романа. Тестировщики могут получить доступ к функции длинного вывода GPT-4o через "gpt-4o-64k-output-alpha".
Цена новой модели увеличилась: 6 долларов за миллион входных токенов и 18 долларов за миллион выходных токенов. Хотя выходной токен в 16 раз больше, чем у GPT-4o, цена также выросла на 3 доллара.
Исследователь Саймон Уиллисон заявляет, что длинный вывод в основном используется для случаев преобразования данных, таких как перевод документов с одного языка на другой или извлечение структурированных данных из документов. До этого самой длинной моделью вывода была GPT-4o mini с 16K токенами.