Расширенный голосовой режим в ChatGPT впечатляет тестировщиков звуковыми эффектами и реалистичным дыханием

Расширенный голосовой режим ChatGPT поражает тестировщиков впечатляющими звуковыми эффектами улучшая общее восприятие пользователем.

август 1, 2024 - 10:25

Расширенный голосовой режим в ChatGPT впечатляет тестировщиков звуковыми эффектами и реалистичным дыханием

Однако многих удивило то, как голоса имитируют вдох во время разговора.

Во вторник OpenAI начала выпускать альфа-версию своего нового Расширенного голосового режима для избранной группы подписчиков ChatGPT Plus. Первоначально представленная в мае вместе с запуском GPT-4o, эта функция предназначена для того, чтобы сделать разговоры с ИИ более естественными и интерактивными. Несмотря на критику в мае за имитацию эмоциональной выразительности и вызвавшую публичные споры с актрисой Скарлетт Йоханссон из-за заявлений о репликации голоса, эта функция получила в основном положительные отзывы в ранних тестах, опубликованных в социальных сетях. Пользователи с ранним доступом сообщают, что Расширенный голосовой режим позволяет вести разговоры с ChatGPT в реальном времени, позволяя прерывать собеседника на полуслове и отвечать практически мгновенно. Он также обнаруживает и реагирует на эмоциональные сигналы пользователей с помощью тона голоса и подачи, а также может включать звуковые эффекты во время повествования историй.

Однако многих удивило то, как голоса имитируют вдох во время разговора.

«Расширенный голосовой режим ChatGPT считает так быстро, как только может, до 10, затем до 50 (это взорвало мне мозг — он остановился, чтобы перевести дух, как это сделал бы человек)», — написал технический писатель Кристиано Джиардина в X.

Расширенный голосовой режим имитирует слышимые паузы для дыхания, поскольку он был обучен на аудиообразцах человеческой речи, которые включали эту функцию. Модель научилась имитировать вдохи в, казалось бы, подходящее время после того, как ей подверглись сотни тысяч, если не миллионы, примеров человеческой речи. Большие языковые модели (LLM), такие как GPT-4o, являются мастерами имитации, и этот навык теперь распространился на аудиосферу.

Джардина поделился дополнительными впечатлениями о расширенном голосовом режиме в X, отметив его возможности с акцентами и звуковыми эффектами.

«Он очень быстрый, практически нет задержки с момента, когда вы перестаете говорить, до момента, когда он отвечает», — написал он. «Когда вы просите его издавать звуки, он всегда заставляет голос «исполнять» звуки (со смешными результатами). Он может делать акценты, но когда говорит на других языках, у него всегда американский акцент. (В видео ChatGPT выступает в роли комментатора футбольного матча.)»

Что касается звуковых эффектов, пользователь X Kesku, модератор сервера OpenAI Discord, поделился примером того, как ChatGPT играет несколько ролей разными голосами. Kesku также поделился другим примером, когда голос пересказывал научно-фантастическую историю, звучащую как аудиокнига, из подсказки: «Расскажи мне захватывающую историю с элементами научной фантастики и создай атмосферу, издавая соответствующие звуки происходящих событий с помощью звукоподражания».

Меры безопасности в расширенном голосовом режиме: Меры предосторожности и проблемы OpenAI

Представитель OpenAI сообщил Ars Technica, что компания сотрудничала с более чем 100 внешними тестерами для выпуска расширенного голосового режима, представляющими 45 различных языков и 29 географических регионов. Система разработана для предотвращения выдачи себя за других людей или публичных лиц путем ограничения выводов четырьмя выбранными предустановленными голосами OpenAI.

OpenAI также внедрила фильтры для обнаружения и блокировки запросов на создание музыки или других защищенных авторским правом аудиозаписей — проблема, которая преследует другие компании ИИ. Однако Джардина отметила случаи «утечки» звука, когда в некоторых выводах появлялась непреднамеренная музыка, что указывает на то, что OpenAI обучала голосовую модель AVM на разнообразных источниках звука, возможно, включая лицензированные материалы и аудио, взятые с онлайн-видеоплатформ.

Доступность: Скоро будет расширен доступ для пользователей ChatGPT plus

OpenAI планирует расширить доступ для большего числа пользователей ChatGPT Plus в ближайшие недели, а полный запуск для всех подписчиков Plus ожидается этой осенью. По словам представителя компании, пользователи в группе альфа-тестирования получат уведомление в приложении ChatGPT и электронное письмо с инструкциями по использованию.

С момента первоначального предварительного просмотра голоса GPT-4o в мае OpenAI утверждает, что улучшила возможности модели для поддержки миллионов одновременных голосовых разговоров в реальном времени, сохраняя при этом низкую задержку и высокое качество. Эта подготовка направлена на удовлетворение ожидаемого спроса, требующего значительных внутренних вычислений.