~/wiki / github / voxcpm2-tokenizer-free-tts-voice-cloning-guide

VoxCPM2 — клонирование голоса и TTS на 30 языках, бесплатно и с открытым кодом

◷ 5 мин чтения 31.05.2026

Основной чат

Чат для вайбкодеров: новости, гайды, поиск исполнителей, маркетплейс и разбор реальных кейсов.

$ cd раздел/ $ join vibe dev

Если вам нужен голос для проекта — озвучка, бот с живой речью, клон собственного голоса для автоматизации — VoxCPM2 от китайской лаборатории OpenBMB сейчас один из сильнейших открытых вариантов. 22.9k звёзд на GitHub, Apache-2.0, устанавливается одной командой.

Репозиторий: github.com/OpenBMB/VoxCPM

Что это такое

VoxCPM2 — TTS-модель на 2 миллиарда параметров, обученная на более чем 2 миллионах часов речи. Архитектура tokenizer-free: модель не переводит текст в токены-фонемы, а работает напрямую в пространстве аудио через диффузионный авторегрессионный подход. На практике это даёт более естественные интонации и лучшее сохранение деталей голоса при клонировании.

Построена на основе языковой модели MiniCPM-4, выдаёт аудио в 48kHz студийного качества.

Четыре режима использования

Voice Design — создать голос из текстового описания без референсного аудио. Описываете характер голоса в скобках прямо в тексте, модель генерирует подходящий:

python копировать
wav = model.generate(
    text="(молодой мужчина, спокойный и уверенный голос)Привет, я ваш ассистент.",
    cfg_value=2.0,
    inference_timesteps=10,
)

Controllable Cloning — клонировать голос из короткого аудиоклипа, при этом управлять стилем: темп, эмоция, экспрессия. Тембр сохраняется, поведение голоса — гибкое:

python копировать
wav = model.generate(
    text="(чуть быстрее, бодрый тон)Добрый день!",
    reference_wav_path="speaker.wav",
)

Ultimate Cloning — максимальная точность клонирования: передаёте и аудио, и его транскрипцию, модель продолжает речь как продолжение оригинала, сохраняя каждую деталь — ритм, тембр, эмоцию.

Базовый TTS — просто синтез текста в речь без каких-либо референсов, на любом из 30 поддерживаемых языков.

Поддерживаемые языки

30 языков: арабский, бирманский, вьетнамский, греческий, датский, иврит, индонезийский, испанский, итальянский, китайский (включая 9 диалектов: сычуаньский, кантонский, шанхайский и другие), корейский, малайский, нидерландский, немецкий, норвежский, польский, португальский, русский, суахили, тагальский, тайский, турецкий, финский, французский, хинди, шведский, японский, английский, а также кхмерский и лаосский.

Языковой тег указывать не нужно — модель определяет язык автоматически.

Установка и быстрый старт

bash копировать
pip install voxcpm

Требования: Python 3.10–3.12, PyTorch ≥ 2.5.0, CUDA ≥ 12.0. VRAM: ~8 ГБ для VoxCPM2.

python копировать
from voxcpm import VoxCPM
import soundfile as sf

model = VoxCPM.from_pretrained(
    "openbmb/VoxCPM2",
    load_denoiser=False,
)

wav = model.generate(
    text="Привет! Это VoxCPM2 — синтез речи на русском языке.",
    cfg_value=2.0,
    inference_timesteps=10,
)
sf.write("output.wav", wav, model.tts_model.sample_rate)

Для запуска веб-интерфейса локально:

bash копировать
python app.py --port 8808
# открыть в браузере: http://localhost:8808

Производительность и продакшен

На NVIDIA RTX 4090 RTF (real-time factor) составляет около 0.3 — то есть одна секунда речи генерируется примерно за 0.3 секунды. С Nano-vLLM ускоряется до ~0.13 RTF, что делает стриминг в реальном времени вполне рабочим.

Для продакшен-деплоя поддерживается vLLM-Omni с OpenAI-совместимым API /v1/audio/speech — можно подключить как замену ElevenLabs в любом сервисе:

bash копировать
vllm serve openbmb/VoxCPM2 --omni --port 8000

curl http://localhost:8000/v1/audio/speech \
  -H "Content-Type: application/json" \
  -d '{"model":"openbmb/VoxCPM2","input":"Привет из VoxCPM2!","voice":"default"}' \
  --output out.wav

Файнтюнинг

Модель поддерживает LoRA и полный файнтюнинг — достаточно 5–10 минут аудио чтобы адаптировать под конкретный голос или домен. Для этого есть готовый WebUI:

bash копировать
python lora_ft_webui.py  # http://localhost:7860

Для каких проектов подходит

VoxCPM2 хорошо подходит, если нужно: создать голос для Telegram-бота или голосового ассистента, добавить озвучку в приложение без покупки API у ElevenLabs, клонировать свой голос для автоматизации контента, или встроить TTS в продакшен с OpenAI-совместимым API.

Лицензия Apache-2.0 разрешает коммерческое использование — ограничений по монетизации нет.

Репозиторий: github.com/OpenBMB/VoxCPM · 22.9k ⭐ Демо: huggingface.co/spaces/OpenBMB/VoxCPM-Demo Документация: voxcpm.readthedocs.io

$ cd ../ ← назад к GitHub