~/wiki / spravka / gpt-5-reasoning-effort-low-medium-high-xhigh

Reasoning effort в GPT-5.4 и GPT-5.5: когда использовать low, medium, high и xhigh

◷ 15 мин чтения 11.06.2026

Основной чат

Чат для вайбкодеров: новости, гайды, поиск исполнителей, маркетплейс и разбор реальных кейсов.

Reasoning effort в GPT-5.4 и GPT-5.5: когда использовать low, medium, high и xhigh - обложка

Если вы работаете с GPT-5.4 или GPT-5.5 через API, один из параметров определяет результат сильнее, чем формулировка промпта — это reasoning.effort. От него зависит, насколько глубоко модель «думает» перед ответом, сколько это будет стоить и сколько придётся ждать.

Большинство разработчиков либо игнорируют этот параметр (оставляя дефолт), либо ставят high на всё подряд «на всякий случай» — и оба подхода одинаково неоптимальны. В этой статье разбираем каждый уровень по отдельности, с реальными цифрами по цене и латентности, и даём чёткие критерии выбора.

Что такое reasoning effort

Параметр reasoning.effort управляет вычислительным бюджетом, который модель тратит на «размышление» перед тем, как сформировать финальный ответ. Reasoning-модели генерируют reasoning tokens — внутренние токены, которые модель использует чтобы «думать»: разбивать запрос на части и рассматривать разные подходы перед формированием ответа.

Ключевой технический момент: reasoning tokens биллятся как часть выходных токенов. Отдельной наценки нет — но чем выше effort, тем больше токенов сгенерировано, и тем больше вы платите. Запрос с high effort может сгенерировать вдвое больше токенов, чем low, для одной и той же задачи — и вы платите за все эти токены.

Пять уровней: что означает каждый

Поддерживаемые значения зависят от конкретной модели и могут включать none, minimal, low, medium, high и xhigh. Не все модели поддерживают весь набор — стоит проверять документацию конкретной модели перед выбором настройки.

none — без рассуждений

Модель ведёт себя как нерассуждающая: отвечает сразу, без внутреннего «обдумывания». Самый быстрый и дешёвый вариант.

Когда использовать: задачи, не требующие рассуждений или цепочек вызовов инструментов — лёгкие голосовые реплики, быстрый поиск информации, классификация.

low — эффективное рассуждение

Минимальный уровень рассуждения с упором на скорость. Модель всё ещё «думает», но кратко.

Когда использовать: для чувствительных к латентности задач — но если в работе участвуют инструменты, планирование, поиск или принятие многошаговых решений, оценивайте именно low, а не none, потому что none может быть слишком ограничен для таких сценариев.

medium — сбалансированная точка (дефолт)

GPT-5.5 по умолчанию использует medium reasoning effort. Это рекомендуемая отправная точка по балансу качества, надёжности, латентности и стоимости.

Если вы вообще не указали reasoning.effort в запросе — модель использует именно этот уровень. Для большинства задач API это правильный выбор по умолчанию.

Когда использовать: базовый уровень для всего, что не относится явно к простым (low/none) или критически сложным (high/xhigh) задачам.

high — для сложных агентных задач

Высокий уровень рассуждения, предназначенный для сложных агентных задач, требующих серьёзного мышления, в ситуациях где латентность не критична.

Когда использовать: batch-обработка (ревью кода, анализ документов, извлечение данных) — здесь вы не блокируете пользователя ожиданием, поэтому дополнительная латентность не имеет значения, а улучшение точности накапливается на сотнях элементов.

xhigh — максимальная глубина для самых сложных задач

xhigh предназначен для самых сложных асинхронных агентных задач или для оценок (evals), которые проверяют пределы интеллекта модели.

xhigh добавился как уровень reasoning effort начиная с моделей после GPT-5.1 Codex Max — более ранние модели его не поддерживают вовсе.

Когда использовать: высокорисковые единичные запросы — аудит безопасности кодовой базы, планирование сложной миграции, разработка нового алгоритма. Именно здесь увеличенные вычисления окупаются.

Реальные цифры: латентность и стоимость по уровням

Здесь начинается самое важное — конкретные данные, а не общие формулировки.

Латентность (Time to First Token)

Время до первого токена при xhigh для GPT-5.5 составляет порядка 115 секунд на Responses API — это не опечатка. Если интерфейс продукта рассчитан на потоковый ответ в течение пяти секунд — xhigh нельзя ставить на основной пользовательский путь.

Стоимость

Расчёты на одном и том же бенчмарке (Artificial Analysis Intelligence Index) при разных effort-уровнях для GPT-5.5:

Уровень effort	Сгенерировано токенов	Стоимость прогона
medium (дефолт)	~23 773 (на задачу, ProfBench)	базовая
high	~45 млн токенов суммарно	$2 159
xhigh	~75 млн токенов суммарно	$3 357

Для сравнения, GPT-5.4 при xhigh на том же бенчмарке сгенерировал около 120 млн токенов суммарно при стоимости $2 851 — даже больше, чем GPT-5.5 на high.

Запрос на xhigh может стоить в 3–5 раз дороже того же запроса на low — это нужно учитывать в расчёте бюджета на проект, особенно при batch-обработке большого количества задач.

Базовые цены API (за 1M токенов)

Модель	Вход	Выход	Кэшированный вход
GPT-5.4	$2.50	$15	—
GPT-5.5	$5	$30	$0.50 (скидка 90%)
GPT-5.5 Pro	$30	$180	без скидки на кэш

Важный нюанс: у GPT-5.5 Pro нет скидки на кэшированный ввод. Если в вашем workflow есть стабильный длинный преамбул (повторяющийся системный промпт или контекст) — это убирает одну из главных причин держать длинные префиксы. Для запросов с большим повторяющимся контекстом разумнее либо использовать обычную GPT-5.5, либо сократить контекст.

Главная ошибка: «выше = лучше» — это не так

Это ключевой тезис, который стоит запомнить: более высокий reasoning effort не означает автоматически лучший результат.

Если задача содержит противоречивые инструкции, слабые критерии остановки или открытый доступ к инструментам — более высокий effort может привести к зацикленному обдумыванию (overthinking), избыточному поиску или даже ухудшению качества вывода.

Это контринтуитивно, но логично: модель с большим «временем на подумать» при нечётких инструкциях начинает додумывать за вас — генерировать дополнительные шаги, перепроверки, альтернативные пути, которые не были нужны и уводят от сути задачи.

Что делать вместо повышения effort

Из практического опыта разработчиков, прежде чем поднимать reasoning effort, стоит проверить и улучшить следующее — и часто это даёт лучший результат, чем переход на high или xhigh:

Чёткость инструкций. Будьте явными в том, что именно нужно получить на выходе.

Примеры (few-shot). Несколько примеров желаемого результата часто помогают больше, чем дополнительное «размышление».

Структурированный вывод. Используйте response format, чтобы ограничить и направить формат ответа.

Шаги верификации. Попросите модель проверить собственную работу перед финальным ответом.

Декомпозиция. Разбейте сложную задачу на более простые подзадачи — вместо одного огромного запроса на xhigh, несколько запросов на medium.

Совет из обсуждений сообщества формулируется так: сначала улучшите правила завершения работы, циклы верификации и правила использования инструментов — и только потом поднимайте reasoning effort.

verbosity — второй параметр, который часто путают с effort

Помимо reasoning.effort, у GPT-5.x есть отдельный параметр text.verbosity со значениями low, medium, high. Это разные вещи: effort влияет на то, сколько модель думает, verbosity — на то, сколько модель пишет в финальном ответе.

Параметр verbosity стабильно масштабирует и длину, и глубину вывода модели, сохраняя корректность и качество рассуждений — без изменения самого промпта.

На практике разница выглядит так:

низкая verbosity — минимальный, функциональный результат без лишних комментариев и структуры
средняя verbosity — добавляются пояснительные комментарии, структура функций, элементы воспроизводимости
высокая verbosity — комплексный, готовый к продакшену результат с разбором аргументов, несколькими подходами, проверками времени выполнения, заметками по использованию

Важный нюанс для GPT-5.5: на этой модели low verbosity даёт пропорционально более лаконичные ответы по сравнению с тем же значением low на GPT-5.4. То есть один и тот же параметр на разных моделях даёт разную степень сжатия вывода.

Effort и verbosity — независимые оси

Это две разные настройки, которые можно комбинировать:

	low verbosity	high verbosity
low effort	Быстро, кратко, минимум размышлений	Быстро по размышлению, но многословный вывод
high effort	Глубокое размышление, краткий ответ	Глубокое размышление + развёрнутый ответ (дороже всего)

Например, для задачи классификации с пограничными случаями имеет смысл medium effort + low verbosity: модель думает достаточно, чтобы правильно классифицировать, но не тратит токены на объяснение каждого решения.

Практическая таблица выбора по типу задачи

Тип задачи	Рекомендуемый effort	Обоснование
Автокомплит, чат в реальном времени	`none` или `low`	Латентность критична, рассуждение не добавляет ценности
Классификация, простой лукап	`none`	Задача не требует многошагового мышления
Голосовые реплики (voice UI)	`none`	Пользователь ждёт мгновенного ответа
Общие API-задачи без явной специфики	`medium` (дефолт)	Лучший баланс качества/цены/скорости для большинства случаев
Ревью кода в pipeline (не блокирует пользователя)	`high`	Латентность не важна, точность накапливается на множестве задач
Анализ документов batch-режимом	`high`	Аналогично — асинхронная обработка
Аудит безопасности кодовой базы	`xhigh`	Высокая цена ошибки оправдывает 12x вычислений
Планирование сложной миграции	`xhigh`	Разовая задача с большой ценой неправильного решения
Рефакторинг с тонкими архитектурными инвариантами	`xhigh` или альтернативная модель	См. раздел про конкурентов ниже
Eval / бенчмаркинг моделей	`xhigh`	Цель — проверить пределы возможностей модели

Computer Use и веб-поиск: особые требования к effort

Отдельный технический нюанс: инструмент веб-поиска через API требует reasoning-модель — нерассуждающие поверхности GPT-5 не предоставляют доступ к этому инструменту тем же образом через API.

Для Computer Use (управление приложениями рабочего стола) у GPT-5.4 заявлен результат 75% на бенчмарке OSWorld, что превышает базовый показатель эксперта-человека в 72.4%. Этот режим включается передачей типа инструмента computer_use — и здесь также важно тестировать разные уровни effort, поскольку задачи управления интерфейсом часто многошаговые и выигрывают от рассуждения выше low.

Как GPT-5.5 соотносится с конкурентами на разных effort

Если вы выбираете между моделями для конкретной задачи — вот ориентиры по нескольким направлениям, актуальные на момент выхода GPT-5.5.

Против Claude Opus 4.7 на сложных задачах с кодом: GPT-5.5 уступает Opus 4.7 на SWE-bench Pro — 58.6% против 64.3%. Если ваш сценарий ближе всего к «исправить реальный баг на GitHub в 40 файлах» — Opus может быть лучшим выбором по умолчанию, независимо от уровня effort GPT-5.5.

Против моделей, оптимизированных по цене: альтернативы вроде DeepSeek V4 Pro стоят примерно в 7 раз дешевле стандартной GPT-5.5 и при этом остаются конкурентоспособными на нескольких бенчмарках, ориентированных на интеллектуальные задачи. Если в вашем проекте стоимость — главный фактор, а GPT-5.5 нужна не для уникальных возможностей, а для общего качества — стоит протестировать более дешёвые альтернативы прежде чем переходить на high/xhigh.

GPT-5.5 Pro и xhigh стоит резервировать для действительно «фронтирных» задач — исследований, сложной математики, многофайловых рефакторингов с тонкими инвариантами. Не стоит размещать такие запросы на горячем пути высоконагруженного продукта.

Технические детали для разработчиков

Параллельные вызовы инструментов и minimal effort

Параллельные вызовы инструментов не поддерживаются, если reasoning_effort установлен в minimal — это важно учитывать, если ваш агент полагается на одновременный вызов нескольких tools.

Системные и developer-сообщения

Современные reasoning-модели поддерживают системные сообщения для упрощения миграции. Не рекомендуется использовать одновременно developer-сообщение и системное сообщение в одном запросе — это может привести к конфликтам в обработке инструкций.

Chat Completions vs Responses API

Reasoning-модели работают с параметром max_completion_tokens при использовании Chat Completions API, тогда как при работе через Responses API используется max_output_tokens. Это особенно важно при high/xhigh effort — без явного ограничения модель может сгенерировать гораздо больше токенов рассуждения, чем планировалось, и вы получите неожиданный счёт.

Преамбулы для снижения воспринимаемой задержки

Для приложений, чувствительных к латентности, можно попросить модель сгенерировать короткий преамбул перед тем как переходить к более глубокому рассуждению — это даёт пользователю более быстрый первый видимый токен, даже если итоговый ответ формируется дольше.

Адаптивное рассуждение

Модели рассуждают адаптивно в рамках заданного уровня effort, используя меньше токенов для простых частей запроса и больше — для сложных. То есть даже на high effort модель не тратит одинаковое количество токенов на каждую подзадачу — простые части обрабатываются быстрее.

Чеклист перед тем как менять reasoning effort

plaintext

☐ Запущен бенчмарк на medium (дефолт) — это базовая линия для сравнения
☐ Проверены критерии завершения: чёткие ли стоп-условия в промпте
☐ Проверены инструкции на противоречия — нет ли конфликтующих требований
☐ Опробованы few-shot примеры вместо повышения effort
☐ Структурирован вывод через response format
☐ Добавлен шаг самопроверки модели перед финальным ответом
☐ Сложная задача декомпозирована на подзадачи
☐ Только теперь, если перечисленное не дало результата — тестируется high/xhigh
☐ Для high/xhigh — задан max_output_tokens, чтобы избежать неконтролируемого роста счёта
☐ Для latency-sensitive путей — xhigh исключён из горячего пути продукта
☐ verbosity настроена отдельно от effort под формат нужного ответа

Итог

Reasoning effort — это не «ползунок качества», который нужно выкручивать на максимум для лучших результатов. Это ползунок компромисса между скоростью, ценой и глубиной размышления, и для большинства задач API правильное значение — medium, заданное по умолчанию.

Повышать до high стоит только для асинхронных batch-задач, где латентность не критична, а накопление точности на множестве запросов оправдывает увеличенную стоимость. До xhigh — только для редких, дорогостоящих по цене ошибки задач: аудит безопасности, архитектурное планирование, фронтирные исследования — и никогда не на горячем пути продукта, учитывая латентность до 115 секунд.

Перед повышением effort всегда стоит проверить более дешёвые рычаги: чёткость промпта, few-shot примеры, структурированный вывод, верификацию и декомпозицию задачи. Часто именно они дают больший прирост качества, чем переход с medium на high — при кратно меньшей стоимости.