~/wiki / spravka / gpt-5-reasoning-effort-low-medium-high-xhigh

Reasoning effort в GPT-5.4 и GPT-5.5: когда использовать low, medium, high и xhigh

Основной чат

Чат для вайбкодеров: новости, гайды, поиск исполнителей, маркетплейс и разбор реальных кейсов.

$ cd раздел/ $ join vibe dev
Reasoning effort в GPT-5.4 и GPT-5.5: когда использовать low, medium, high и xhigh - обложка

Если вы работаете с GPT-5.4 или GPT-5.5 через API, один из параметров определяет результат сильнее, чем формулировка промпта — это reasoning.effort. От него зависит, насколько глубоко модель «думает» перед ответом, сколько это будет стоить и сколько придётся ждать.

Большинство разработчиков либо игнорируют этот параметр (оставляя дефолт), либо ставят high на всё подряд «на всякий случай» — и оба подхода одинаково неоптимальны. В этой статье разбираем каждый уровень по отдельности, с реальными цифрами по цене и латентности, и даём чёткие критерии выбора.


Что такое reasoning effort

Параметр reasoning.effort управляет вычислительным бюджетом, который модель тратит на «размышление» перед тем, как сформировать финальный ответ. Reasoning-модели генерируют reasoning tokens — внутренние токены, которые модель использует чтобы «думать»: разбивать запрос на части и рассматривать разные подходы перед формированием ответа.

Ключевой технический момент: reasoning tokens биллятся как часть выходных токенов. Отдельной наценки нет — но чем выше effort, тем больше токенов сгенерировано, и тем больше вы платите. Запрос с high effort может сгенерировать вдвое больше токенов, чем low, для одной и той же задачи — и вы платите за все эти токены.


Пять уровней: что означает каждый

Поддерживаемые значения зависят от конкретной модели и могут включать none, minimal, low, medium, high и xhigh. Не все модели поддерживают весь набор — стоит проверять документацию конкретной модели перед выбором настройки.

none — без рассуждений

Модель ведёт себя как нерассуждающая: отвечает сразу, без внутреннего «обдумывания». Самый быстрый и дешёвый вариант.

Когда использовать: задачи, не требующие рассуждений или цепочек вызовов инструментов — лёгкие голосовые реплики, быстрый поиск информации, классификация.

low — эффективное рассуждение

Минимальный уровень рассуждения с упором на скорость. Модель всё ещё «думает», но кратко.

Когда использовать: для чувствительных к латентности задач — но если в работе участвуют инструменты, планирование, поиск или принятие многошаговых решений, оценивайте именно low, а не none, потому что none может быть слишком ограничен для таких сценариев.

medium — сбалансированная точка (дефолт)

GPT-5.5 по умолчанию использует medium reasoning effort. Это рекомендуемая отправная точка по балансу качества, надёжности, латентности и стоимости.

Если вы вообще не указали reasoning.effort в запросе — модель использует именно этот уровень. Для большинства задач API это правильный выбор по умолчанию.

Когда использовать: базовый уровень для всего, что не относится явно к простым (low/none) или критически сложным (high/xhigh) задачам.

high — для сложных агентных задач

Высокий уровень рассуждения, предназначенный для сложных агентных задач, требующих серьёзного мышления, в ситуациях где латентность не критична.

Когда использовать: batch-обработка (ревью кода, анализ документов, извлечение данных) — здесь вы не блокируете пользователя ожиданием, поэтому дополнительная латентность не имеет значения, а улучшение точности накапливается на сотнях элементов.

xhigh — максимальная глубина для самых сложных задач

xhigh предназначен для самых сложных асинхронных агентных задач или для оценок (evals), которые проверяют пределы интеллекта модели.

xhigh добавился как уровень reasoning effort начиная с моделей после GPT-5.1 Codex Max — более ранние модели его не поддерживают вовсе.

Когда использовать: высокорисковые единичные запросы — аудит безопасности кодовой базы, планирование сложной миграции, разработка нового алгоритма. Именно здесь увеличенные вычисления окупаются.


Реальные цифры: латентность и стоимость по уровням

Здесь начинается самое важное — конкретные данные, а не общие формулировки.

Латентность (Time to First Token)

Время до первого токена при xhigh для GPT-5.5 составляет порядка 115 секунд на Responses API — это не опечатка. Если интерфейс продукта рассчитан на потоковый ответ в течение пяти секунд — xhigh нельзя ставить на основной пользовательский путь.

Стоимость

Расчёты на одном и том же бенчмарке (Artificial Analysis Intelligence Index) при разных effort-уровнях для GPT-5.5:

Уровень effort Сгенерировано токенов Стоимость прогона
medium (дефолт) ~23 773 (на задачу, ProfBench) базовая
high ~45 млн токенов суммарно $2 159
xhigh ~75 млн токенов суммарно $3 357

Для сравнения, GPT-5.4 при xhigh на том же бенчмарке сгенерировал около 120 млн токенов суммарно при стоимости $2 851 — даже больше, чем GPT-5.5 на high.

Запрос на xhigh может стоить в 3–5 раз дороже того же запроса на low — это нужно учитывать в расчёте бюджета на проект, особенно при batch-обработке большого количества задач.

Базовые цены API (за 1M токенов)

Модель Вход Выход Кэшированный вход
GPT-5.4 $2.50 $15
GPT-5.5 $5 $30 $0.50 (скидка 90%)
GPT-5.5 Pro $30 $180 без скидки на кэш

Важный нюанс: у GPT-5.5 Pro нет скидки на кэшированный ввод. Если в вашем workflow есть стабильный длинный преамбул (повторяющийся системный промпт или контекст) — это убирает одну из главных причин держать длинные префиксы. Для запросов с большим повторяющимся контекстом разумнее либо использовать обычную GPT-5.5, либо сократить контекст.


Главная ошибка: «выше = лучше» — это не так

Это ключевой тезис, который стоит запомнить: более высокий reasoning effort не означает автоматически лучший результат.

Если задача содержит противоречивые инструкции, слабые критерии остановки или открытый доступ к инструментам — более высокий effort может привести к зацикленному обдумыванию (overthinking), избыточному поиску или даже ухудшению качества вывода.

Это контринтуитивно, но логично: модель с большим «временем на подумать» при нечётких инструкциях начинает додумывать за вас — генерировать дополнительные шаги, перепроверки, альтернативные пути, которые не были нужны и уводят от сути задачи.

Что делать вместо повышения effort

Из практического опыта разработчиков, прежде чем поднимать reasoning effort, стоит проверить и улучшить следующее — и часто это даёт лучший результат, чем переход на high или xhigh:

Чёткость инструкций. Будьте явными в том, что именно нужно получить на выходе.

Примеры (few-shot). Несколько примеров желаемого результата часто помогают больше, чем дополнительное «размышление».

Структурированный вывод. Используйте response format, чтобы ограничить и направить формат ответа.

Шаги верификации. Попросите модель проверить собственную работу перед финальным ответом.

Декомпозиция. Разбейте сложную задачу на более простые подзадачи — вместо одного огромного запроса на xhigh, несколько запросов на medium.

Совет из обсуждений сообщества формулируется так: сначала улучшите правила завершения работы, циклы верификации и правила использования инструментов — и только потом поднимайте reasoning effort.


verbosity — второй параметр, который часто путают с effort

Помимо reasoning.effort, у GPT-5.x есть отдельный параметр text.verbosity со значениями low, medium, high. Это разные вещи: effort влияет на то, сколько модель думает, verbosity — на то, сколько модель пишет в финальном ответе.

Параметр verbosity стабильно масштабирует и длину, и глубину вывода модели, сохраняя корректность и качество рассуждений — без изменения самого промпта.

На практике разница выглядит так:

  • низкая verbosity — минимальный, функциональный результат без лишних комментариев и структуры
  • средняя verbosity — добавляются пояснительные комментарии, структура функций, элементы воспроизводимости
  • высокая verbosity — комплексный, готовый к продакшену результат с разбором аргументов, несколькими подходами, проверками времени выполнения, заметками по использованию

Важный нюанс для GPT-5.5: на этой модели low verbosity даёт пропорционально более лаконичные ответы по сравнению с тем же значением low на GPT-5.4. То есть один и тот же параметр на разных моделях даёт разную степень сжатия вывода.

Effort и verbosity — независимые оси

Это две разные настройки, которые можно комбинировать:

low verbosity high verbosity
low effort Быстро, кратко, минимум размышлений Быстро по размышлению, но многословный вывод
high effort Глубокое размышление, краткий ответ Глубокое размышление + развёрнутый ответ (дороже всего)

Например, для задачи классификации с пограничными случаями имеет смысл medium effort + low verbosity: модель думает достаточно, чтобы правильно классифицировать, но не тратит токены на объяснение каждого решения.


Практическая таблица выбора по типу задачи

Тип задачи Рекомендуемый effort Обоснование
Автокомплит, чат в реальном времени none или low Латентность критична, рассуждение не добавляет ценности
Классификация, простой лукап none Задача не требует многошагового мышления
Голосовые реплики (voice UI) none Пользователь ждёт мгновенного ответа
Общие API-задачи без явной специфики medium (дефолт) Лучший баланс качества/цены/скорости для большинства случаев
Ревью кода в pipeline (не блокирует пользователя) high Латентность не важна, точность накапливается на множестве задач
Анализ документов batch-режимом high Аналогично — асинхронная обработка
Аудит безопасности кодовой базы xhigh Высокая цена ошибки оправдывает 12x вычислений
Планирование сложной миграции xhigh Разовая задача с большой ценой неправильного решения
Рефакторинг с тонкими архитектурными инвариантами xhigh или альтернативная модель См. раздел про конкурентов ниже
Eval / бенчмаркинг моделей xhigh Цель — проверить пределы возможностей модели

Computer Use и веб-поиск: особые требования к effort

Отдельный технический нюанс: инструмент веб-поиска через API требует reasoning-модель — нерассуждающие поверхности GPT-5 не предоставляют доступ к этому инструменту тем же образом через API.

Для Computer Use (управление приложениями рабочего стола) у GPT-5.4 заявлен результат 75% на бенчмарке OSWorld, что превышает базовый показатель эксперта-человека в 72.4%. Этот режим включается передачей типа инструмента computer_use — и здесь также важно тестировать разные уровни effort, поскольку задачи управления интерфейсом часто многошаговые и выигрывают от рассуждения выше low.


Как GPT-5.5 соотносится с конкурентами на разных effort

Если вы выбираете между моделями для конкретной задачи — вот ориентиры по нескольким направлениям, актуальные на момент выхода GPT-5.5.

Против Claude Opus 4.7 на сложных задачах с кодом: GPT-5.5 уступает Opus 4.7 на SWE-bench Pro — 58.6% против 64.3%. Если ваш сценарий ближе всего к «исправить реальный баг на GitHub в 40 файлах» — Opus может быть лучшим выбором по умолчанию, независимо от уровня effort GPT-5.5.

Против моделей, оптимизированных по цене: альтернативы вроде DeepSeek V4 Pro стоят примерно в 7 раз дешевле стандартной GPT-5.5 и при этом остаются конкурентоспособными на нескольких бенчмарках, ориентированных на интеллектуальные задачи. Если в вашем проекте стоимость — главный фактор, а GPT-5.5 нужна не для уникальных возможностей, а для общего качества — стоит протестировать более дешёвые альтернативы прежде чем переходить на high/xhigh.

GPT-5.5 Pro и xhigh стоит резервировать для действительно «фронтирных» задач — исследований, сложной математики, многофайловых рефакторингов с тонкими инвариантами. Не стоит размещать такие запросы на горячем пути высоконагруженного продукта.


Технические детали для разработчиков

Параллельные вызовы инструментов и minimal effort

Параллельные вызовы инструментов не поддерживаются, если reasoning_effort установлен в minimal — это важно учитывать, если ваш агент полагается на одновременный вызов нескольких tools.

Системные и developer-сообщения

Современные reasoning-модели поддерживают системные сообщения для упрощения миграции. Не рекомендуется использовать одновременно developer-сообщение и системное сообщение в одном запросе — это может привести к конфликтам в обработке инструкций.

Chat Completions vs Responses API

Reasoning-модели работают с параметром max_completion_tokens при использовании Chat Completions API, тогда как при работе через Responses API используется max_output_tokens. Это особенно важно при high/xhigh effort — без явного ограничения модель может сгенерировать гораздо больше токенов рассуждения, чем планировалось, и вы получите неожиданный счёт.

Преамбулы для снижения воспринимаемой задержки

Для приложений, чувствительных к латентности, можно попросить модель сгенерировать короткий преамбул перед тем как переходить к более глубокому рассуждению — это даёт пользователю более быстрый первый видимый токен, даже если итоговый ответ формируется дольше.

Адаптивное рассуждение

Модели рассуждают адаптивно в рамках заданного уровня effort, используя меньше токенов для простых частей запроса и больше — для сложных. То есть даже на high effort модель не тратит одинаковое количество токенов на каждую подзадачу — простые части обрабатываются быстрее.


Чеклист перед тем как менять reasoning effort

plaintext
☐ Запущен бенчмарк на medium (дефолт) — это базовая линия для сравнения
☐ Проверены критерии завершения: чёткие ли стоп-условия в промпте
☐ Проверены инструкции на противоречия — нет ли конфликтующих требований
☐ Опробованы few-shot примеры вместо повышения effort
☐ Структурирован вывод через response format
☐ Добавлен шаг самопроверки модели перед финальным ответом
☐ Сложная задача декомпозирована на подзадачи
☐ Только теперь, если перечисленное не дало результата — тестируется high/xhigh
☐ Для high/xhigh — задан max_output_tokens, чтобы избежать неконтролируемого роста счёта
☐ Для latency-sensitive путей — xhigh исключён из горячего пути продукта
☐ verbosity настроена отдельно от effort под формат нужного ответа

Итог

Reasoning effort — это не «ползунок качества», который нужно выкручивать на максимум для лучших результатов. Это ползунок компромисса между скоростью, ценой и глубиной размышления, и для большинства задач API правильное значение — medium, заданное по умолчанию.

Повышать до high стоит только для асинхронных batch-задач, где латентность не критична, а накопление точности на множестве запросов оправдывает увеличенную стоимость. До xhigh — только для редких, дорогостоящих по цене ошибки задач: аудит безопасности, архитектурное планирование, фронтирные исследования — и никогда не на горячем пути продукта, учитывая латентность до 115 секунд.

Перед повышением effort всегда стоит проверить более дешёвые рычаги: чёткость промпта, few-shot примеры, структурированный вывод, верификацию и декомпозицию задачи. Часто именно они дают больший прирост качества, чем переход с medium на high — при кратно меньшей стоимости.

$ cd ../ ← назад к Справка