ElevenLabs TTS: реалистичный синтез речи
Выразительный синтез речи, голоса и дубляж. Много языков и голосовых стилей. Коротко о модели закрытая Категория Audio Вход текст Выход аудио Доступ ElevenLabs Локально нет Веса нет Лучше всего: дубляж, подкасты, медиа Риски/ограничения: ограничения по…
Suno Bark: модель для создания звуков и музыки
Open‑weight модель генерации речи и звуковых эффектов. Коротко о модели open‑weight Категория Audio Вход текст Выход аудио Доступ open‑weight релиз Локально да Веса да Лучше всего: эксперименты и креативные эффекты Риски/ограничения: не для строго…
Suno: нейросеть для генерации музыки
Генерация музыки и песен по текстовому описанию. Удобно для быстрых демо и идей. Коротко о модели закрытая Категория Audio Вход текст, лирика Выход аудио (трек) Доступ Suno web Локально нет Веса нет Лучше всего: демо‑музыка, быстрые референсы…
OpenAI Whisper: распознавание речи
Open‑source модель распознавания речи, популярна для локального STT. Коротко о модели open‑weight Категория Audio Вход аудио Выход текст Доступ open‑weight релиз Локально да Веса да Лучше всего: локальный STT, оффлайн‑распознавание Риски/ограничения:…
Meta MusicGen: генерация музыки от Meta
Open‑weight генерация музыки по текстовому описанию. Коротко о модели open‑weight Категория Audio Вход текст Выход аудио (трек) Доступ open‑weight релиз Локально да Веса да Лучше всего: демо‑треки, прототипы музыки Риски/ограничения: лицензии и качество…
Coqui XTTS v2: клонирование голоса
Многоязычный TTS с поддержкой клонирования голоса при локальном запуске. Коротко о модели open‑weight Категория Audio Вход текст, аудио‑референс Выход аудио Доступ open‑weight релизы Локально да Веса да Лучше всего: локальная озвучка и дубляж…
OpenAI GPT‑4o‑mini‑tts: синтез речи с эмоциями
Синтез речи с простым API и стабильным качеством. Коротко о модели закрытая Категория Audio Вход текст Выход аудио Доступ OpenAI API Локально нет Веса нет Лучше всего: озвучка, ассистенты, IVR Риски/ограничения: ограничения по тарифу Официальные…
OpenAI GPT‑4o‑mini‑transcribe: точная транскрибация
Распознавание речи с улучшенной точностью относительно ранних Whisper‑моделей. Коротко о модели закрытая Категория Audio Вход аудио Выход текст Доступ OpenAI API Локально нет Веса нет Лучше всего: субтитры, поиск по аудио Риски/ограничения: стоимость на…
AudioLDM 2: генерация аудио по текстовому описанию
Open‑weight генерация аудио и звуков по текстовому описанию. Коротко о модели open‑weight Категория Audio Вход текст Выход аудио Доступ open‑weight релизы Локально да Веса да Лучше всего: звуковые эффекты, саунд‑дизайн Риски/ограничения: нужна настройка…