VoxCPM2 — клонирование голоса и TTS на 30 языках, бесплатно и с открытым кодом
Основной чат
Чат для вайбкодеров: новости, гайды, поиск исполнителей, маркетплейс и разбор реальных кейсов.
Если вам нужен голос для проекта — озвучка, бот с живой речью, клон собственного голоса для автоматизации — VoxCPM2 от китайской лаборатории OpenBMB сейчас один из сильнейших открытых вариантов. 22.9k звёзд на GitHub, Apache-2.0, устанавливается одной командой.
Репозиторий: github.com/OpenBMB/VoxCPM
Что это такое
VoxCPM2 — TTS-модель на 2 миллиарда параметров, обученная на более чем 2 миллионах часов речи. Архитектура tokenizer-free: модель не переводит текст в токены-фонемы, а работает напрямую в пространстве аудио через диффузионный авторегрессионный подход. На практике это даёт более естественные интонации и лучшее сохранение деталей голоса при клонировании.
Построена на основе языковой модели MiniCPM-4, выдаёт аудио в 48kHz студийного качества.
Четыре режима использования
Voice Design — создать голос из текстового описания без референсного аудио. Описываете характер голоса в скобках прямо в тексте, модель генерирует подходящий:
wav = model.generate(
text="(молодой мужчина, спокойный и уверенный голос)Привет, я ваш ассистент.",
cfg_value=2.0,
inference_timesteps=10,
)
Controllable Cloning — клонировать голос из короткого аудиоклипа, при этом управлять стилем: темп, эмоция, экспрессия. Тембр сохраняется, поведение голоса — гибкое:
wav = model.generate(
text="(чуть быстрее, бодрый тон)Добрый день!",
reference_wav_path="speaker.wav",
)
Ultimate Cloning — максимальная точность клонирования: передаёте и аудио, и его транскрипцию, модель продолжает речь как продолжение оригинала, сохраняя каждую деталь — ритм, тембр, эмоцию.
Базовый TTS — просто синтез текста в речь без каких-либо референсов, на любом из 30 поддерживаемых языков.
Поддерживаемые языки
30 языков: арабский, бирманский, вьетнамский, греческий, датский, иврит, индонезийский, испанский, итальянский, китайский (включая 9 диалектов: сычуаньский, кантонский, шанхайский и другие), корейский, малайский, нидерландский, немецкий, норвежский, польский, португальский, русский, суахили, тагальский, тайский, турецкий, финский, французский, хинди, шведский, японский, английский, а также кхмерский и лаосский.
Языковой тег указывать не нужно — модель определяет язык автоматически.
Установка и быстрый старт
pip install voxcpm
Требования: Python 3.10–3.12, PyTorch ≥ 2.5.0, CUDA ≥ 12.0. VRAM: ~8 ГБ для VoxCPM2.
from voxcpm import VoxCPM
import soundfile as sf
model = VoxCPM.from_pretrained(
"openbmb/VoxCPM2",
load_denoiser=False,
)
wav = model.generate(
text="Привет! Это VoxCPM2 — синтез речи на русском языке.",
cfg_value=2.0,
inference_timesteps=10,
)
sf.write("output.wav", wav, model.tts_model.sample_rate)
Для запуска веб-интерфейса локально:
python app.py --port 8808
# открыть в браузере: http://localhost:8808
Производительность и продакшен
На NVIDIA RTX 4090 RTF (real-time factor) составляет около 0.3 — то есть одна секунда речи генерируется примерно за 0.3 секунды. С Nano-vLLM ускоряется до ~0.13 RTF, что делает стриминг в реальном времени вполне рабочим.
Для продакшен-деплоя поддерживается vLLM-Omni с OpenAI-совместимым API /v1/audio/speech — можно подключить как замену ElevenLabs в любом сервисе:
vllm serve openbmb/VoxCPM2 --omni --port 8000
curl http://localhost:8000/v1/audio/speech \
-H "Content-Type: application/json" \
-d '{"model":"openbmb/VoxCPM2","input":"Привет из VoxCPM2!","voice":"default"}' \
--output out.wav
Файнтюнинг
Модель поддерживает LoRA и полный файнтюнинг — достаточно 5–10 минут аудио чтобы адаптировать под конкретный голос или домен. Для этого есть готовый WebUI:
python lora_ft_webui.py # http://localhost:7860
Для каких проектов подходит
VoxCPM2 хорошо подходит, если нужно: создать голос для Telegram-бота или голосового ассистента, добавить озвучку в приложение без покупки API у ElevenLabs, клонировать свой голос для автоматизации контента, или встроить TTS в продакшен с OpenAI-совместимым API.
Лицензия Apache-2.0 разрешает коммерческое использование — ограничений по монетизации нет.
Репозиторий: github.com/OpenBMB/VoxCPM · 22.9k ⭐ Демо: huggingface.co/spaces/OpenBMB/VoxCPM-Demo Документация: voxcpm.readthedocs.io