OpenAI представляет гиперреалистичный голос для ChatGPT для выбора платных пользователей

ChatGPT теперь может говорить и слушать с помощью Advanced Voice Mode. Новый режим обеспечивает реалистичный звук и эмоциональную интонацию.

июль 31, 2024 - 10:40

OpenAI представляет гиперреалистичный голос для ChatGPT для выбора платных пользователей

OpenAI начала развертывание расширенного голосового режима ChatGPT, предлагая пользователям первый опыт работы с гиперреалистичными звуковыми ответами GPT-4o. Альфа-версия доступна сегодня для избранной группы пользователей ChatGPT Plus, а более широкое развертывание ожидается для всех пользователей Plus осенью 2024 года.

Когда OpenAI впервые представила голос GPT-4o в мае, он поразил аудиторию своими реалистичными и быстрыми ответами, особенно напоминающими голос Скарлетт Йоханссон, которая озвучивала помощника ИИ в фильме «Она». После демонстрации Йоханссон отклонила несколько запросов генерального директора Сэма Альтмана на использование ее голоса и впоследствии обратилась в юридическое представительство для защиты своего образа. OpenAI отрицала использование голоса Йоханссон, но удалила его из демонстрации. В июне выпуск расширенного голосового режима был отложен для усиления мер безопасности.

Теперь ожидание закончилось, хотя и не полностью. Функции видео и совместного использования экрана, продемонстрированные в весеннем обновлении, не будут включены в этот альфа-релиз и будут запущены позже. На данный момент революционная голосовая демонстрация GPT-4o остается просто демонстрацией, и некоторые премиум-пользователи получают доступ к этой функции.

ChatGPT теперь может говорить и слушать: Представляем расширенный голосовой режим

Если вы пробовали существующий голосовой режим в ChatGPT, вы могли заметить, что новый расширенный голосовой режим OpenAI является значительным обновлением. Ранее ChatGPT использовал три отдельные модели для аудиозадач: одну для преобразования голоса в текст, GPT-4 для обработки подсказок и еще одну для преобразования текста в голос. Напротив, GPT-4o объединяет эти функции в единую мультимодальную модель, которая сокращает задержку и улучшает разговорный опыт. Кроме того, GPT-4o может определять эмоциональные нюансы в вашем голосе, такие как грусть, волнение или даже пение.

На этом пилотном этапе пользователи ChatGPT Plus будут одними из первых, кто испытает гиперреалистичные возможности расширенного голосового режима OpenAI. Хотя TechCrunch еще не рассмотрел эту функцию, подробный обзор последует после предоставления доступа.

Постепенное развертывание: OpenAI выпускает новую голосовую функцию постепенно, чтобы отслеживать ее использование и производительность. Участники группы Alpha получат оповещение в приложении ChatGPT и электронное письмо с инструкциями по использованию функции.

Тщательное тестирование: с момента первоначальной демонстрации OpenAI протестировала голосовые возможности GPT-4o с более чем 100 внешними участниками Red Team на 45 языках. Отчет об этих мерах безопасности и результатах тестирования ожидается в начале августа, что еще раз продемонстрирует приверженность OpenAI обеспечению безопасного и эффективного голосового опыта.