Reasoning effort в GPT-5.4 и GPT-5.5: когда использовать low, medium, high и xhigh
Основной чат
Чат для вайбкодеров: новости, гайды, поиск исполнителей, маркетплейс и разбор реальных кейсов.
Если вы работаете с GPT-5.4 или GPT-5.5 через API, один из параметров определяет результат сильнее, чем формулировка промпта — это reasoning.effort. От него зависит, насколько глубоко модель «думает» перед ответом, сколько это будет стоить и сколько придётся ждать.
Большинство разработчиков либо игнорируют этот параметр (оставляя дефолт), либо ставят high на всё подряд «на всякий случай» — и оба подхода одинаково неоптимальны. В этой статье разбираем каждый уровень по отдельности, с реальными цифрами по цене и латентности, и даём чёткие критерии выбора.
Что такое reasoning effort
Параметр reasoning.effort управляет вычислительным бюджетом, который модель тратит на «размышление» перед тем, как сформировать финальный ответ. Reasoning-модели генерируют reasoning tokens — внутренние токены, которые модель использует чтобы «думать»: разбивать запрос на части и рассматривать разные подходы перед формированием ответа.
Ключевой технический момент: reasoning tokens биллятся как часть выходных токенов. Отдельной наценки нет — но чем выше effort, тем больше токенов сгенерировано, и тем больше вы платите. Запрос с high effort может сгенерировать вдвое больше токенов, чем low, для одной и той же задачи — и вы платите за все эти токены.
Пять уровней: что означает каждый
Поддерживаемые значения зависят от конкретной модели и могут включать none, minimal, low, medium, high и xhigh. Не все модели поддерживают весь набор — стоит проверять документацию конкретной модели перед выбором настройки.
none — без рассуждений
Модель ведёт себя как нерассуждающая: отвечает сразу, без внутреннего «обдумывания». Самый быстрый и дешёвый вариант.
Когда использовать: задачи, не требующие рассуждений или цепочек вызовов инструментов — лёгкие голосовые реплики, быстрый поиск информации, классификация.
low — эффективное рассуждение
Минимальный уровень рассуждения с упором на скорость. Модель всё ещё «думает», но кратко.
Когда использовать: для чувствительных к латентности задач — но если в работе участвуют инструменты, планирование, поиск или принятие многошаговых решений, оценивайте именно low, а не none, потому что none может быть слишком ограничен для таких сценариев.
medium — сбалансированная точка (дефолт)
GPT-5.5 по умолчанию использует medium reasoning effort. Это рекомендуемая отправная точка по балансу качества, надёжности, латентности и стоимости.
Если вы вообще не указали reasoning.effort в запросе — модель использует именно этот уровень. Для большинства задач API это правильный выбор по умолчанию.
Когда использовать: базовый уровень для всего, что не относится явно к простым (low/none) или критически сложным (high/xhigh) задачам.
high — для сложных агентных задач
Высокий уровень рассуждения, предназначенный для сложных агентных задач, требующих серьёзного мышления, в ситуациях где латентность не критична.
Когда использовать: batch-обработка (ревью кода, анализ документов, извлечение данных) — здесь вы не блокируете пользователя ожиданием, поэтому дополнительная латентность не имеет значения, а улучшение точности накапливается на сотнях элементов.
xhigh — максимальная глубина для самых сложных задач
xhigh предназначен для самых сложных асинхронных агентных задач или для оценок (evals), которые проверяют пределы интеллекта модели.
xhigh добавился как уровень reasoning effort начиная с моделей после GPT-5.1 Codex Max — более ранние модели его не поддерживают вовсе.
Когда использовать: высокорисковые единичные запросы — аудит безопасности кодовой базы, планирование сложной миграции, разработка нового алгоритма. Именно здесь увеличенные вычисления окупаются.
Реальные цифры: латентность и стоимость по уровням
Здесь начинается самое важное — конкретные данные, а не общие формулировки.
Латентность (Time to First Token)
Время до первого токена при xhigh для GPT-5.5 составляет порядка 115 секунд на Responses API — это не опечатка. Если интерфейс продукта рассчитан на потоковый ответ в течение пяти секунд — xhigh нельзя ставить на основной пользовательский путь.
Стоимость
Расчёты на одном и том же бенчмарке (Artificial Analysis Intelligence Index) при разных effort-уровнях для GPT-5.5:
| Уровень effort | Сгенерировано токенов | Стоимость прогона |
|---|---|---|
| medium (дефолт) | ~23 773 (на задачу, ProfBench) | базовая |
| high | ~45 млн токенов суммарно | $2 159 |
| xhigh | ~75 млн токенов суммарно | $3 357 |
Для сравнения, GPT-5.4 при xhigh на том же бенчмарке сгенерировал около 120 млн токенов суммарно при стоимости $2 851 — даже больше, чем GPT-5.5 на high.
Запрос на xhigh может стоить в 3–5 раз дороже того же запроса на low — это нужно учитывать в расчёте бюджета на проект, особенно при batch-обработке большого количества задач.
Базовые цены API (за 1M токенов)
| Модель | Вход | Выход | Кэшированный вход |
|---|---|---|---|
| GPT-5.4 | $2.50 | $15 | — |
| GPT-5.5 | $5 | $30 | $0.50 (скидка 90%) |
| GPT-5.5 Pro | $30 | $180 | без скидки на кэш |
Важный нюанс: у GPT-5.5 Pro нет скидки на кэшированный ввод. Если в вашем workflow есть стабильный длинный преамбул (повторяющийся системный промпт или контекст) — это убирает одну из главных причин держать длинные префиксы. Для запросов с большим повторяющимся контекстом разумнее либо использовать обычную GPT-5.5, либо сократить контекст.
Главная ошибка: «выше = лучше» — это не так
Это ключевой тезис, который стоит запомнить: более высокий reasoning effort не означает автоматически лучший результат.
Если задача содержит противоречивые инструкции, слабые критерии остановки или открытый доступ к инструментам — более высокий effort может привести к зацикленному обдумыванию (overthinking), избыточному поиску или даже ухудшению качества вывода.
Это контринтуитивно, но логично: модель с большим «временем на подумать» при нечётких инструкциях начинает додумывать за вас — генерировать дополнительные шаги, перепроверки, альтернативные пути, которые не были нужны и уводят от сути задачи.
Что делать вместо повышения effort
Из практического опыта разработчиков, прежде чем поднимать reasoning effort, стоит проверить и улучшить следующее — и часто это даёт лучший результат, чем переход на high или xhigh:
Чёткость инструкций. Будьте явными в том, что именно нужно получить на выходе.
Примеры (few-shot). Несколько примеров желаемого результата часто помогают больше, чем дополнительное «размышление».
Структурированный вывод. Используйте response format, чтобы ограничить и направить формат ответа.
Шаги верификации. Попросите модель проверить собственную работу перед финальным ответом.
Декомпозиция. Разбейте сложную задачу на более простые подзадачи — вместо одного огромного запроса на xhigh, несколько запросов на medium.
Совет из обсуждений сообщества формулируется так: сначала улучшите правила завершения работы, циклы верификации и правила использования инструментов — и только потом поднимайте reasoning effort.
verbosity — второй параметр, который часто путают с effort
Помимо reasoning.effort, у GPT-5.x есть отдельный параметр text.verbosity со значениями low, medium, high. Это разные вещи: effort влияет на то, сколько модель думает, verbosity — на то, сколько модель пишет в финальном ответе.
Параметр verbosity стабильно масштабирует и длину, и глубину вывода модели, сохраняя корректность и качество рассуждений — без изменения самого промпта.
На практике разница выглядит так:
- низкая verbosity — минимальный, функциональный результат без лишних комментариев и структуры
- средняя verbosity — добавляются пояснительные комментарии, структура функций, элементы воспроизводимости
- высокая verbosity — комплексный, готовый к продакшену результат с разбором аргументов, несколькими подходами, проверками времени выполнения, заметками по использованию
Важный нюанс для GPT-5.5: на этой модели low verbosity даёт пропорционально более лаконичные ответы по сравнению с тем же значением low на GPT-5.4. То есть один и тот же параметр на разных моделях даёт разную степень сжатия вывода.
Effort и verbosity — независимые оси
Это две разные настройки, которые можно комбинировать:
| low verbosity | high verbosity | |
|---|---|---|
| low effort | Быстро, кратко, минимум размышлений | Быстро по размышлению, но многословный вывод |
| high effort | Глубокое размышление, краткий ответ | Глубокое размышление + развёрнутый ответ (дороже всего) |
Например, для задачи классификации с пограничными случаями имеет смысл medium effort + low verbosity: модель думает достаточно, чтобы правильно классифицировать, но не тратит токены на объяснение каждого решения.
Практическая таблица выбора по типу задачи
| Тип задачи | Рекомендуемый effort | Обоснование |
|---|---|---|
| Автокомплит, чат в реальном времени | none или low |
Латентность критична, рассуждение не добавляет ценности |
| Классификация, простой лукап | none |
Задача не требует многошагового мышления |
| Голосовые реплики (voice UI) | none |
Пользователь ждёт мгновенного ответа |
| Общие API-задачи без явной специфики | medium (дефолт) |
Лучший баланс качества/цены/скорости для большинства случаев |
| Ревью кода в pipeline (не блокирует пользователя) | high |
Латентность не важна, точность накапливается на множестве задач |
| Анализ документов batch-режимом | high |
Аналогично — асинхронная обработка |
| Аудит безопасности кодовой базы | xhigh |
Высокая цена ошибки оправдывает 12x вычислений |
| Планирование сложной миграции | xhigh |
Разовая задача с большой ценой неправильного решения |
| Рефакторинг с тонкими архитектурными инвариантами | xhigh или альтернативная модель |
См. раздел про конкурентов ниже |
| Eval / бенчмаркинг моделей | xhigh |
Цель — проверить пределы возможностей модели |
Computer Use и веб-поиск: особые требования к effort
Отдельный технический нюанс: инструмент веб-поиска через API требует reasoning-модель — нерассуждающие поверхности GPT-5 не предоставляют доступ к этому инструменту тем же образом через API.
Для Computer Use (управление приложениями рабочего стола) у GPT-5.4 заявлен результат 75% на бенчмарке OSWorld, что превышает базовый показатель эксперта-человека в 72.4%. Этот режим включается передачей типа инструмента computer_use — и здесь также важно тестировать разные уровни effort, поскольку задачи управления интерфейсом часто многошаговые и выигрывают от рассуждения выше low.
Как GPT-5.5 соотносится с конкурентами на разных effort
Если вы выбираете между моделями для конкретной задачи — вот ориентиры по нескольким направлениям, актуальные на момент выхода GPT-5.5.
Против Claude Opus 4.7 на сложных задачах с кодом: GPT-5.5 уступает Opus 4.7 на SWE-bench Pro — 58.6% против 64.3%. Если ваш сценарий ближе всего к «исправить реальный баг на GitHub в 40 файлах» — Opus может быть лучшим выбором по умолчанию, независимо от уровня effort GPT-5.5.
Против моделей, оптимизированных по цене: альтернативы вроде DeepSeek V4 Pro стоят примерно в 7 раз дешевле стандартной GPT-5.5 и при этом остаются конкурентоспособными на нескольких бенчмарках, ориентированных на интеллектуальные задачи. Если в вашем проекте стоимость — главный фактор, а GPT-5.5 нужна не для уникальных возможностей, а для общего качества — стоит протестировать более дешёвые альтернативы прежде чем переходить на high/xhigh.
GPT-5.5 Pro и xhigh стоит резервировать для действительно «фронтирных» задач — исследований, сложной математики, многофайловых рефакторингов с тонкими инвариантами. Не стоит размещать такие запросы на горячем пути высоконагруженного продукта.
Технические детали для разработчиков
Параллельные вызовы инструментов и minimal effort
Параллельные вызовы инструментов не поддерживаются, если reasoning_effort установлен в minimal — это важно учитывать, если ваш агент полагается на одновременный вызов нескольких tools.
Системные и developer-сообщения
Современные reasoning-модели поддерживают системные сообщения для упрощения миграции. Не рекомендуется использовать одновременно developer-сообщение и системное сообщение в одном запросе — это может привести к конфликтам в обработке инструкций.
Chat Completions vs Responses API
Reasoning-модели работают с параметром max_completion_tokens при использовании Chat Completions API, тогда как при работе через Responses API используется max_output_tokens. Это особенно важно при high/xhigh effort — без явного ограничения модель может сгенерировать гораздо больше токенов рассуждения, чем планировалось, и вы получите неожиданный счёт.
Преамбулы для снижения воспринимаемой задержки
Для приложений, чувствительных к латентности, можно попросить модель сгенерировать короткий преамбул перед тем как переходить к более глубокому рассуждению — это даёт пользователю более быстрый первый видимый токен, даже если итоговый ответ формируется дольше.
Адаптивное рассуждение
Модели рассуждают адаптивно в рамках заданного уровня effort, используя меньше токенов для простых частей запроса и больше — для сложных. То есть даже на high effort модель не тратит одинаковое количество токенов на каждую подзадачу — простые части обрабатываются быстрее.
Чеклист перед тем как менять reasoning effort
☐ Запущен бенчмарк на medium (дефолт) — это базовая линия для сравнения
☐ Проверены критерии завершения: чёткие ли стоп-условия в промпте
☐ Проверены инструкции на противоречия — нет ли конфликтующих требований
☐ Опробованы few-shot примеры вместо повышения effort
☐ Структурирован вывод через response format
☐ Добавлен шаг самопроверки модели перед финальным ответом
☐ Сложная задача декомпозирована на подзадачи
☐ Только теперь, если перечисленное не дало результата — тестируется high/xhigh
☐ Для high/xhigh — задан max_output_tokens, чтобы избежать неконтролируемого роста счёта
☐ Для latency-sensitive путей — xhigh исключён из горячего пути продукта
☐ verbosity настроена отдельно от effort под формат нужного ответа
Итог
Reasoning effort — это не «ползунок качества», который нужно выкручивать на максимум для лучших результатов. Это ползунок компромисса между скоростью, ценой и глубиной размышления, и для большинства задач API правильное значение — medium, заданное по умолчанию.
Повышать до high стоит только для асинхронных batch-задач, где латентность не критична, а накопление точности на множестве запросов оправдывает увеличенную стоимость. До xhigh — только для редких, дорогостоящих по цене ошибки задач: аудит безопасности, архитектурное планирование, фронтирные исследования — и никогда не на горячем пути продукта, учитывая латентность до 115 секунд.
Перед повышением effort всегда стоит проверить более дешёвые рычаги: чёткость промпта, few-shot примеры, структурированный вывод, верификацию и декомпозицию задачи. Часто именно они дают больший прирост качества, чем переход с medium на high — при кратно меньшей стоимости.