NVIDIA Nemotron 3 Ultra: самая быстрая открытая модель для агентного ИИ
Основной чат
Чат для вайбкодеров: новости, гайды, поиск исполнителей, маркетплейс и разбор реальных кейсов.
4 июня 2026 года NVIDIA выпустила Nemotron 3 Ultra — флагманскую модель семейства Nemotron 3 и на сегодняшний день одну из самых производительных открытых языковых моделей в мире. Это не просто очередной большой LLM: архитектура, принципы обучения и фокус применения здесь принципиально другие.
Зачем это вообще нужно
Одиночные чат-боты уходят в прошлое. Современный ИИ — это длинные агентные цепочки: планировщик вызывает инструменты, инструменты возвращают данные, данные передаются дальше, подзадачи делегируются суб-агентам. С каждым шагом контекстное окно растёт, стоимость инференса увеличивается, а риск потери цели накапливается.
Nemotron 3 Ultra создан именно для этого сценария: сложная оркестрация, долгий контекст, высокая скорость — при точности на уровне лучших открытых моделей.
Что внутри: архитектура
550 миллиардов параметров, 55 активных
Nemotron 3 Ultra — это Mixture-of-Experts модель. Всего параметров 550B, но на каждый токен активируется только 55B. Это означает: мощность большой модели при значительно меньших вычислительных затратах на инференс.
Гибрид Mamba + Transformer
Вместо чистой Transformer-архитектуры NVIDIA использует гибрид: большинство слоёв — это Mamba (обработка длинных последовательностей с суб-квадратичной сложностью), несколько слоёв Attention оставлены для точного извлечения информации из контекста. Это обеспечивает работу с окном контекста до 1 миллиона токенов при разумной стоимости.
LatentMoE
Собственный механизм маршрутизации экспертов от NVIDIA. По сравнению со стандартным MoE повышает точность модели за счёт улучшенного распределения токенов между специализированными экспертами.
MTP (Multi-Token Prediction)
Модель предсказывает несколько токенов одновременно, что работает как встроенное спекулятивное декодирование. Принятие первых двух предсказанных токенов составляет около 97% — это заметно ускоряет генерацию, особенно в длинных сессиях.
NVFP4-квантизация
Модель предобучена в формате NVFP4 — 4-битная точность с плавающей запятой от NVIDIA. Это обеспечивает до 5x более высокий throughput по сравнению с аналогичными моделями на GPU-архитектуре GB200/GB300 при минимальных потерях качества (отклонение от BF16 — менее 0.4%).
Как обучали
Пред-обучение
Модель обучена на 16+ триллионах токенов, включая:
- 173 миллиарда токенов кода с GitHub (данные до сентября 2025)
- синтетические датасеты для юридических задач
- датасеты для улучшения фактической точности и сложных сценариев рассуждения
Post-training: SFT → RL → MOPD
После пред-обучения модель прошла трёхэтапную пайплайн-тренировку:
- SFT — supervised fine-tuning для базового выравнивания
- RL — мультисредовое обучение с подкреплением (15 новых RL-сред в этом релизе, всего 55)
- MOPD (Multi-teacher On-Policy Distillation) — дистилляция знаний от 10+ специализированных моделей-учителей. Каждый раунд: ученик делает rollouts, учителя дают плотную обратную связь, знания сливаются обратно. NVIDIA провела 2 итерации MOPD для Nemotron 3 Ultra.
Производительность: точность и скорость
Точность на ключевых бенчмарках
| Бенчмарк | Nemotron 3 Ultra | GLM 5.1 (744B) | Kimi K2.6 (1T) | Qwen 3.5 (397B) |
|---|---|---|---|---|
| Agent Productivity (PinchBench) | 91% | 84% | 91% | 89% |
| Instruction Following (IFBench) | 82% | 77% | 74% | 78% |
| Long Context (Ruler @1M) | 95% | N/A (макс. 256K) | N/A (макс. 256K) | 90% |
| Professional Work (ProfBench) | 56% | 46% | 56% | 53% |
| Coding (Terminal-Bench 2.0) | 54% | 64% | 67% | 53% |
| SWE-Bench Verified | 71.9 | — | — | — |
| IOI 2025 (конкурсное программирование) | 570.0 | — | — | — |
По заявлению NVIDIA, результат 570.0 на IOI 2025 соответствует уровню топ-3 среди людей в соревновательном программировании.
Скорость инференса
Это главное преимущество модели. На настройке 8K токенов входа / 64K токенов выхода Nemotron 3 Ultra обгоняет конкурентов:
- в 5.9x быстрее GLM-5.1-754B
- в 4.8x быстрее Kimi-K2.6-1T
- в 1.6x быстрее Qwen-3.5-397B
Это не просто статистика — для агентных систем, где один сеанс может генерировать сотни тысяч токенов, скорость напрямую влияет на стоимость и применимость.
Три режима рассуждения
Модель поддерживает управление бюджетом рассуждения в runtime:
- Reasoning off — прямой ответ без цепочки рассуждений, для простых задач
- Regular — стандартное рассуждение
- Medium — расширенное рассуждение для сложных задач
Это позволяет балансировать между скоростью и глубиной анализа прямо во время работы агента.
Открытость: что доступно
NVIDIA выпускает Nemotron 3 Ultra полностью открыто под лицензией OpenMDW-1.1:
- веса модели (BF16 и NVFP4)
- 10+ триллионов токенов обучающих данных
- рецепты обучения
- 50 миллионов SFT-сэмплов (10M новых в этом релизе)
- 2 миллиона RL-задач (1M новых)
- 55 RL-сред (15 новых)
Это редкость для модели такого масштаба — обычно открывают либо веса, либо часть данных.
Для каких задач подходит
Nemotron 3 Ultra проектировался для сценариев, где другие модели либо слишком дороги, либо слишком медленны:
- Кодирование — поддержание архитектурных решений через длинные сессии, дебаггинг сложных систем
- Исследования — синтез информации из сотен источников с полным контекстом
- Автономные агенты — оркестрация многоходовых рабочих процессов с вызовом инструментов
- Верификация — проверка сложных систем (например, дизайна чипов) по тысячам ограничений
Где запустить
Модель доступна через:
- Hugging Face — веса для самостоятельного деплоя
- NVIDIA NIM — готовый инференс через API
- build.nvidia.com — облачная платформа NVIDIA
Для максимальной производительности рекомендуется GPU-архитектура GB200 с TRT-LLM.
Итог
Nemotron 3 Ultra — это ответ NVIDIA на практическую проблему агентного ИИ: как получить качество frontier-модели при стоимости и скорости, пригодных для продакшена. Гибридная Mamba-архитектура, NVFP4-квантизация и MTP-ускорение дают до 5-6x преимущества в throughput при сопоставимой точности с моделями, которые весят в 2-3 раза больше.
Полная открытость — веса, данные, рецепты — делает Nemotron 3 Ultra редким случаем, когда исследовательское сообщество получает не просто модель, а весь стек для воспроизведения и дообучения.