Source
ШІ: Від теорії до практики | OpenAI оновила аудіомоделі: значне покращення точності та надійностіКо...
46 Views/Reach
2025-12-24 14:05
Message №10482
OpenAI оновила аудіомоделі: значне покращення точності та надійностіКомпанія OpenAI представила нові версії (snapshots) своїх аудіомоделей для Realtime API. Оновлення від 15 грудня 2025 року спрямоване на усунення основних проблем голосових інтерфейсів: галюцинацій, помилок у словах та низької точності виконання інструкцій.Нові моделі та їхні показникиОновлення охоплює три ключові напрямки роботи зі звуком: транскрибування, синтез мовлення та реальний час.🔷gpt-4o-mini-transcribe-2025-12-15: Новий стандарт у розпізнаванні мовлення. Модель демонструє на 89% менше галюцинацій порівняно з Whisper-1, що робить її значно надійнішою для фіксації переговорів та інтерв'ю.🔷gpt-4o-mini-tts-2025-12-15: Модель для перетворення тексту в голос. За даними бенчмарку Common Voice, кількість помилок у словах (Word Error Rate) скоротилася на 35%. Голос став чистішим, а вимова — природнішою.🔷gpt-realtime-mini-2025-12-15: Оптимізована модель для створення голосових агентів. Здатність дотримуватися інструкцій (instruction following) покращилася на 22%, а точність виклику функцій (function calling) зросла на 13%.Чому це важливо для розробниківЦі оновлення роблять розробку голосових помічників доступнішою та якіснішою:⚫️Зниження вартості: Використання mini-версій моделей у реальному часі значно дешевше за флагманські рішення, що дозволяє інтегрувати просунуті голосові функції у масові додатки.⚫️Стійкість до шумів: Нові алгоритми краще розпізнають мовлення в умовах сторонніх звуків та акцентів.⚫️Автономність агентів: Покращене виконання інструкцій дозволяє створювати складніших ШІ-агентів, які можуть керувати сторонніми сервісами через голос без помилок у логіці.Нові версії вже доступні на платформі OpenAI для тестування та інтеграції у комерційні проєкти.👉Тестувати в Realtime API #Корисні_нейронкиПідписатись на канал: ШІ: Від теорії до практики