NVIDIA Nemotron 3 Ultra: самая быстрая открытая модель для агентного ИИ

◷ 6 мин чтения 05.06.2026 автор: Алексей, VibeCode

Основной чат

Чат для вайбкодеров: новости, гайды, поиск исполнителей, маркетплейс и разбор реальных кейсов.

NVIDIA Nemotron 3 Ultra: самая быстрая открытая модель для агентного ИИ - обложка

4 июня 2026 года NVIDIA выпустила Nemotron 3 Ultra — флагманскую модель семейства Nemotron 3 и на сегодняшний день одну из самых производительных открытых языковых моделей в мире. Это не просто очередной большой LLM: архитектура, принципы обучения и фокус применения здесь принципиально другие.

Зачем это вообще нужно

Одиночные чат-боты уходят в прошлое. Современный ИИ — это длинные агентные цепочки: планировщик вызывает инструменты, инструменты возвращают данные, данные передаются дальше, подзадачи делегируются суб-агентам. С каждым шагом контекстное окно растёт, стоимость инференса увеличивается, а риск потери цели накапливается.

Nemotron 3 Ultra создан именно для этого сценария: сложная оркестрация, долгий контекст, высокая скорость — при точности на уровне лучших открытых моделей.

Что внутри: архитектура

550 миллиардов параметров, 55 активных

Nemotron 3 Ultra — это Mixture-of-Experts модель. Всего параметров 550B, но на каждый токен активируется только 55B. Это означает: мощность большой модели при значительно меньших вычислительных затратах на инференс.

Гибрид Mamba + Transformer

Вместо чистой Transformer-архитектуры NVIDIA использует гибрид: большинство слоёв — это Mamba (обработка длинных последовательностей с суб-квадратичной сложностью), несколько слоёв Attention оставлены для точного извлечения информации из контекста. Это обеспечивает работу с окном контекста до 1 миллиона токенов при разумной стоимости.

LatentMoE

Собственный механизм маршрутизации экспертов от NVIDIA. По сравнению со стандартным MoE повышает точность модели за счёт улучшенного распределения токенов между специализированными экспертами.

MTP (Multi-Token Prediction)

Модель предсказывает несколько токенов одновременно, что работает как встроенное спекулятивное декодирование. Принятие первых двух предсказанных токенов составляет около 97% — это заметно ускоряет генерацию, особенно в длинных сессиях.

NVFP4-квантизация

Модель предобучена в формате NVFP4 — 4-битная точность с плавающей запятой от NVIDIA. Это обеспечивает до 5x более высокий throughput по сравнению с аналогичными моделями на GPU-архитектуре GB200/GB300 при минимальных потерях качества (отклонение от BF16 — менее 0.4%).

Как обучали

Пред-обучение

Модель обучена на 16+ триллионах токенов, включая:

173 миллиарда токенов кода с GitHub (данные до сентября 2025)
синтетические датасеты для юридических задач
датасеты для улучшения фактической точности и сложных сценариев рассуждения

Post-training: SFT → RL → MOPD

После пред-обучения модель прошла трёхэтапную пайплайн-тренировку:

SFT — supervised fine-tuning для базового выравнивания
RL — мультисредовое обучение с подкреплением (15 новых RL-сред в этом релизе, всего 55)
MOPD (Multi-teacher On-Policy Distillation) — дистилляция знаний от 10+ специализированных моделей-учителей. Каждый раунд: ученик делает rollouts, учителя дают плотную обратную связь, знания сливаются обратно. NVIDIA провела 2 итерации MOPD для Nemotron 3 Ultra.

Производительность: точность и скорость

Точность на ключевых бенчмарках

Бенчмарк	Nemotron 3 Ultra	GLM 5.1 (744B)	Kimi K2.6 (1T)	Qwen 3.5 (397B)
Agent Productivity (PinchBench)	91%	84%	91%	89%
Instruction Following (IFBench)	82%	77%	74%	78%
Long Context (Ruler @1M)	95%	N/A (макс. 256K)	N/A (макс. 256K)	90%
Professional Work (ProfBench)	56%	46%	56%	53%
Coding (Terminal-Bench 2.0)	54%	64%	67%	53%
SWE-Bench Verified	71.9	—	—	—
IOI 2025 (конкурсное программирование)	570.0	—	—	—

По заявлению NVIDIA, результат 570.0 на IOI 2025 соответствует уровню топ-3 среди людей в соревновательном программировании.

Скорость инференса

Это главное преимущество модели. На настройке 8K токенов входа / 64K токенов выхода Nemotron 3 Ultra обгоняет конкурентов:

в 5.9x быстрее GLM-5.1-754B
в 4.8x быстрее Kimi-K2.6-1T
в 1.6x быстрее Qwen-3.5-397B

Это не просто статистика — для агентных систем, где один сеанс может генерировать сотни тысяч токенов, скорость напрямую влияет на стоимость и применимость.

Три режима рассуждения

Модель поддерживает управление бюджетом рассуждения в runtime:

Reasoning off — прямой ответ без цепочки рассуждений, для простых задач
Regular — стандартное рассуждение
Medium — расширенное рассуждение для сложных задач

Это позволяет балансировать между скоростью и глубиной анализа прямо во время работы агента.

Открытость: что доступно

NVIDIA выпускает Nemotron 3 Ultra полностью открыто под лицензией OpenMDW-1.1:

веса модели (BF16 и NVFP4)
10+ триллионов токенов обучающих данных
рецепты обучения
50 миллионов SFT-сэмплов (10M новых в этом релизе)
2 миллиона RL-задач (1M новых)
55 RL-сред (15 новых)

Это редкость для модели такого масштаба — обычно открывают либо веса, либо часть данных.

Для каких задач подходит

Nemotron 3 Ultra проектировался для сценариев, где другие модели либо слишком дороги, либо слишком медленны:

Кодирование — поддержание архитектурных решений через длинные сессии, дебаггинг сложных систем
Исследования — синтез информации из сотен источников с полным контекстом
Автономные агенты — оркестрация многоходовых рабочих процессов с вызовом инструментов
Верификация — проверка сложных систем (например, дизайна чипов) по тысячам ограничений

Где запустить

Модель доступна через:

Hugging Face — веса для самостоятельного деплоя
NVIDIA NIM — готовый инференс через API
build.nvidia.com — облачная платформа NVIDIA

Для максимальной производительности рекомендуется GPU-архитектура GB200 с TRT-LLM.

Итог

Nemotron 3 Ultra — это ответ NVIDIA на практическую проблему агентного ИИ: как получить качество frontier-модели при стоимости и скорости, пригодных для продакшена. Гибридная Mamba-архитектура, NVFP4-квантизация и MTP-ускорение дают до 5-6x преимущества в throughput при сопоставимой точности с моделями, которые весят в 2-3 раза больше.

Полная открытость — веса, данные, рецепты — делает Nemotron 3 Ultra редким случаем, когда исследовательское сообщество получает не просто модель, а весь стек для воспроизведения и дообучения.

NVIDIA Nemotron 3 Ultra: самая быстрая открытая модель для агентного ИИ

## Зачем это вообще нужно

## Что внутри: архитектура

### 550 миллиардов параметров, 55 активных

### Гибрид Mamba + Transformer

### LatentMoE

### MTP (Multi-Token Prediction)

### NVFP4-квантизация

## Как обучали

### Пред-обучение

### Post-training: SFT → RL → MOPD

## Производительность: точность и скорость

### Точность на ключевых бенчмарках

### Скорость инференса

## Три режима рассуждения

## Открытость: что доступно

## Для каких задач подходит

## Где запустить

## Итог

Reve 2.0 — новая революция в генерации изображений 2026: layouts, 4K и «изображения, которые можно потрогать

Wikivibe MCP: как подключить сайт к AI-агентам и зачем это нужно

Зачем это вообще нужно

Что внутри: архитектура

550 миллиардов параметров, 55 активных

Гибрид Mamba + Transformer

LatentMoE

MTP (Multi-Token Prediction)

NVFP4-квантизация

Как обучали

Пред-обучение

Post-training: SFT → RL → MOPD

Производительность: точность и скорость

Точность на ключевых бенчмарках

Скорость инференса

Три режима рассуждения

Открытость: что доступно

Для каких задач подходит

Где запустить

Итог