Новости Март 21, 2025
Пока мы тут обсуждаем, как AI отнимает работу у копирайтеров, OpenAI делает следующий шаг — теперь он целится на дикторов и колл-центры. Компания выкатила новые модели для распознавания и синтеза речи, которые, по их словам, станут самой продвинутой основой для голосовых агентов.
🔹 gpt-4o-transcribe и gpt-4o-mini-transcribe — новые системы для превращения речи в текст. Они лучше слышат, меньше ошибаются и не ломаются при акцентах, шуме и быстрой речи. Улучшения достигли за счет обучения на более крутых аудиодатасетах и использования подкрепленного обучения.
🔹 gpt-4o-mini-tts — обновленная текст-в-речь модель, которая теперь позволяет задавать стиль озвучки, но пока с одним нюансом — только предустановленными искусственными голосами.
Как и всегда у OpenAI, бесплатно тестить никто не даст, но вот расклад:
💰 gpt-4o-transcribe — $6 за 1 млн аудиотокенов (~0.6 цента за минуту)
💰 gpt-4o-mini-transcribe — $3 за 1 млн аудиотокенов (~0.3 цента за минуту)
💰 gpt-4o-mini-tts — $12 за 1 млн аудиовыходных токенов (~1.5 цента за минуту)
Коротко: будет стоить дешевле, чем у конкурентов, но для больших объемов всё равно выйдет в копеечку.
1️⃣ Крупным компаниям и сервисам поддержки — голосовые чат-боты станут дешевле и умнее, а значит, нас ждет еще больше автоматизированных разговоров, где "ваш звонок очень важен для нас".
2️⃣ Контент-мейкерам — озвучка подкастов, аудиокниг и видеороликов без участия человека. Пока ограничено, но если OpenAI разрешит кастомные голоса, начнется веселье.
3️⃣ Продавцам AI-услуг — разработчики смогут делать кастомных голосовых помощников с лучшей распознавалкой.
OpenAI намекнула, что в будущем хочет разрешить пользователям загружать свои кастомные голоса, но в рамках их "стандартов безопасности" (читай: без диких deepfake’ов). Плюс, модели уже интегрировали в Agents SDK, а для задач, где важна минимальная задержка, советуют Realtime API.
Готовы ли вы слушать ботов вместо живых людей, если они будут говорить без ошибок и с нормальной интонацией? Или все равно останется ощущение искусственности?