~/wiki / novosti / nvidia-nemotron-3-ultra

NVIDIA Nemotron 3 Ultra: самая быстрая открытая модель для агентного ИИ

◷ 6 мин чтения 05.06.2026

Основной чат

Чат для вайбкодеров: новости, гайды, поиск исполнителей, маркетплейс и разбор реальных кейсов.

$ cd раздел/ $ join vibe dev

4 июня 2026 года NVIDIA выпустила Nemotron 3 Ultra — флагманскую модель семейства Nemotron 3 и на сегодняшний день одну из самых производительных открытых языковых моделей в мире. Это не просто очередной большой LLM: архитектура, принципы обучения и фокус применения здесь принципиально другие.


Зачем это вообще нужно

Одиночные чат-боты уходят в прошлое. Современный ИИ — это длинные агентные цепочки: планировщик вызывает инструменты, инструменты возвращают данные, данные передаются дальше, подзадачи делегируются суб-агентам. С каждым шагом контекстное окно растёт, стоимость инференса увеличивается, а риск потери цели накапливается.

Nemotron 3 Ultra создан именно для этого сценария: сложная оркестрация, долгий контекст, высокая скорость — при точности на уровне лучших открытых моделей.


Что внутри: архитектура

550 миллиардов параметров, 55 активных

Nemotron 3 Ultra — это Mixture-of-Experts модель. Всего параметров 550B, но на каждый токен активируется только 55B. Это означает: мощность большой модели при значительно меньших вычислительных затратах на инференс.

Гибрид Mamba + Transformer

Вместо чистой Transformer-архитектуры NVIDIA использует гибрид: большинство слоёв — это Mamba (обработка длинных последовательностей с суб-квадратичной сложностью), несколько слоёв Attention оставлены для точного извлечения информации из контекста. Это обеспечивает работу с окном контекста до 1 миллиона токенов при разумной стоимости.

LatentMoE

Собственный механизм маршрутизации экспертов от NVIDIA. По сравнению со стандартным MoE повышает точность модели за счёт улучшенного распределения токенов между специализированными экспертами.

MTP (Multi-Token Prediction)

Модель предсказывает несколько токенов одновременно, что работает как встроенное спекулятивное декодирование. Принятие первых двух предсказанных токенов составляет около 97% — это заметно ускоряет генерацию, особенно в длинных сессиях.

NVFP4-квантизация

Модель предобучена в формате NVFP4 — 4-битная точность с плавающей запятой от NVIDIA. Это обеспечивает до 5x более высокий throughput по сравнению с аналогичными моделями на GPU-архитектуре GB200/GB300 при минимальных потерях качества (отклонение от BF16 — менее 0.4%).


Как обучали

Пред-обучение

Модель обучена на 16+ триллионах токенов, включая:

  • 173 миллиарда токенов кода с GitHub (данные до сентября 2025)
  • синтетические датасеты для юридических задач
  • датасеты для улучшения фактической точности и сложных сценариев рассуждения

Post-training: SFT → RL → MOPD

После пред-обучения модель прошла трёхэтапную пайплайн-тренировку:

  1. SFT — supervised fine-tuning для базового выравнивания
  2. RL — мультисредовое обучение с подкреплением (15 новых RL-сред в этом релизе, всего 55)
  3. MOPD (Multi-teacher On-Policy Distillation) — дистилляция знаний от 10+ специализированных моделей-учителей. Каждый раунд: ученик делает rollouts, учителя дают плотную обратную связь, знания сливаются обратно. NVIDIA провела 2 итерации MOPD для Nemotron 3 Ultra.

Производительность: точность и скорость

Точность на ключевых бенчмарках

Бенчмарк Nemotron 3 Ultra GLM 5.1 (744B) Kimi K2.6 (1T) Qwen 3.5 (397B)
Agent Productivity (PinchBench) 91% 84% 91% 89%
Instruction Following (IFBench) 82% 77% 74% 78%
Long Context (Ruler @1M) 95% N/A (макс. 256K) N/A (макс. 256K) 90%
Professional Work (ProfBench) 56% 46% 56% 53%
Coding (Terminal-Bench 2.0) 54% 64% 67% 53%
SWE-Bench Verified 71.9
IOI 2025 (конкурсное программирование) 570.0

По заявлению NVIDIA, результат 570.0 на IOI 2025 соответствует уровню топ-3 среди людей в соревновательном программировании.

Скорость инференса

Это главное преимущество модели. На настройке 8K токенов входа / 64K токенов выхода Nemotron 3 Ultra обгоняет конкурентов:

  • в 5.9x быстрее GLM-5.1-754B
  • в 4.8x быстрее Kimi-K2.6-1T
  • в 1.6x быстрее Qwen-3.5-397B

Это не просто статистика — для агентных систем, где один сеанс может генерировать сотни тысяч токенов, скорость напрямую влияет на стоимость и применимость.


Три режима рассуждения

Модель поддерживает управление бюджетом рассуждения в runtime:

  • Reasoning off — прямой ответ без цепочки рассуждений, для простых задач
  • Regular — стандартное рассуждение
  • Medium — расширенное рассуждение для сложных задач

Это позволяет балансировать между скоростью и глубиной анализа прямо во время работы агента.


Открытость: что доступно

NVIDIA выпускает Nemotron 3 Ultra полностью открыто под лицензией OpenMDW-1.1:

  • веса модели (BF16 и NVFP4)
  • 10+ триллионов токенов обучающих данных
  • рецепты обучения
  • 50 миллионов SFT-сэмплов (10M новых в этом релизе)
  • 2 миллиона RL-задач (1M новых)
  • 55 RL-сред (15 новых)

Это редкость для модели такого масштаба — обычно открывают либо веса, либо часть данных.


Для каких задач подходит

Nemotron 3 Ultra проектировался для сценариев, где другие модели либо слишком дороги, либо слишком медленны:

  • Кодирование — поддержание архитектурных решений через длинные сессии, дебаггинг сложных систем
  • Исследования — синтез информации из сотен источников с полным контекстом
  • Автономные агенты — оркестрация многоходовых рабочих процессов с вызовом инструментов
  • Верификация — проверка сложных систем (например, дизайна чипов) по тысячам ограничений

Где запустить

Модель доступна через:

  • Hugging Face — веса для самостоятельного деплоя
  • NVIDIA NIM — готовый инференс через API
  • build.nvidia.com — облачная платформа NVIDIA

Для максимальной производительности рекомендуется GPU-архитектура GB200 с TRT-LLM.


Итог

Nemotron 3 Ultra — это ответ NVIDIA на практическую проблему агентного ИИ: как получить качество frontier-модели при стоимости и скорости, пригодных для продакшена. Гибридная Mamba-архитектура, NVFP4-квантизация и MTP-ускорение дают до 5-6x преимущества в throughput при сопоставимой точности с моделями, которые весят в 2-3 раза больше.

Полная открытость — веса, данные, рецепты — делает Nemotron 3 Ultra редким случаем, когда исследовательское сообщество получает не просто модель, а весь стек для воспроизведения и дообучения.

$ cd ../ ← назад к Новости