OpenAI тестирует голосовой режим сервиса GPT-4o. Голосом Скарлетт Йоханссон он говорить не будет
OpenAI начала внешнее тестирование голосового режима общения с GPT-4o. Альфа-версия пока доступна небольшой группе пользователей ChatGPT Plus. Функция станет доступна для всех пользователей чат-бота осенью 2024 года.
Когда OpenAI в мае впервые продемонстрировала голос GPT-4o, эта функция удивила аудиторию не только быстрыми ответами, но и странным сходством ее голоса с голосом совершенно конкретного человека – Скарлетт Йоханссон. Эта актриса озвучивала искусственного помощника в фильме "Она". Вскоре после демонстрации OpenAI Йоханссон заявила, что она отказалась от многочисленных предложений генерального директора Сэма Альтмана на использование ее голоса, и, увидев демонстрацию GPT-4o, наняла юриста для защиты своей физической собственности. OpenAI наличие какого-либо сходства голосов отрицала.
Теперь OpenAI рассказала о новой версии голосового сервиса. Функция Voice Mode в настоящее время доступна на ChatGPT, но OpenAI утверждает, что новая Advanced Voice Mode будет другой не только по голосу, но и по программному решению. Существующее решение ChatGPT для голосового общения использует три отдельные модели: одну для преобразования голоса пользователя в текст, вторую – GPT-4 для обработки текстового промпта, и третью – для преобразования текста ChatGPT в голосовой ответ. Но GPT-4o является мультимодальным, то есть способен обрабатывать все эти задачи без помощи вспомогательных моделей и это позволяет значительно сократить время ответа. OpenAI утверждает, что GPT-4o может чувствовать эмоциональную окраску голоса пользователя, например, грусть или волнение, и отличает речь от пения.
Пока пользователей голосового режима мало, и, например, авторитетное издание TechCrunch, рассказавшее о модели, не смогло получить к ней доступ для самостоятельного тестирования.
Компания заявляет, что за несколько месяцев после первого запуска голосового сервиса разработчики протестировали голосовые возможности GPT-4o с более чем 100 внешними участниками команды тестеров, говорящими на 45 языках.
OpenAI ввела фильтры для блокировки определенных запросов на создание музыки или других аудиоматериалов, защищенных авторским правом. Так что, спеть вместе с чат-ботом любимую песню, скорее всего, не получится.
Голосовой режим будет ограничен четырьмя предустановленными голосами – Juniper, Breeze, Cove и Ember, – созданными в сотрудничестве с профессиональными актерами озвучивания. Голос Sky, показанный в майской демонстрации OpenAI и показавшийся похожим на голос Йоханссон, больше на ChatGPT не доступен.