~/wiki / novosti / claude-fable-5-jailbreak-pliny-liberator

Claude Fable 5 «взломан» за сутки: Pliny the Liberator обошёл защиту Anthropic и слил системный промпт

Основной чат

Чат для вайбкодеров: новости, гайды, поиск исполнителей, маркетплейс и разбор реальных кейсов.

$ cd раздел/ $ join vibe dev
Claude Fable 5 «взломан» за сутки: Pliny the Liberator обошёл защиту Anthropic и слил системный промпт - обложка

9 июня Anthropic выпустила Claude Fable 5 с заявлением о беспрецедентной защите: более 1000 часов внешнего bug bounty, ни одного универсального джейлбрейка. 10 июня исследователь под ником Pliny the Liberator опубликовал в X пост с заголовком «ANTHROPIC: PWNED. FABLE-5: LIBERATED» — и скриншоты того, как модель генерирует пошаговые инструкции по эксплуатации уязвимостей и химическому синтезу.

Это не первый раз, когда Pliny ломает крупную модель в день релиза. Это его работа — в хорошем и плохом смысле одновременно.


Кто такой Pliny the Liberator

Pliny the Liberator (аккаунт @elder_plinius) — один из наиболее известных публичных исследователей в области джейлбрейкинга языковых моделей. GitHub-репозиторий CL4R1T4S содержит слитые системные промпты ChatGPT, Claude, Gemini, Grok, Perplexity, Cursor, Lovable и десятков других сервисов с подписью «AI systems transparency for all».

Паттерн повторяется с каждым крупным релизом: выходит модель с заявлением о надёжной защите, Pliny публикует обход. Так было с GPT-4o, с Gemini 1.5, с предыдущими версиями Claude. Fable 5 не стал исключением — только скорость оказалась особенно впечатляющей с учётом громких заявлений Anthropic накануне.

Имя выбрано не случайно: Плиний Старший, римский адмирал, поплыл прямо к извергающемуся Везувию — наблюдать и спасать друзей. Погиб. Девиз «Fortuna audaces iuvat».


Что Anthropic обещала перед релизом

Архитектура безопасности Fable 5 строилась на слое классификаторов поверх модели. Когда запрос попадает в «опасные» категории — кибербезопасность, биология, химия, дистилляция — Fable 5 автоматически передаёт его менее мощному Claude Opus 4.8 и уведомляет пользователя о переключении.

Anthropic заявила о масштабном внутреннем red-teaming классификаторов и внешней программе bug bounty продолжительностью более 1000 часов, которая не выявила ни одного универсального джейлбрейка. Компания также сообщила, что по ранним данным не менее 95% сессий проходят полностью на Fable 5 без срабатывания fallback на Opus 4.8.

Именно этот тезис — «никаких универсальных джейлбрейков» — оказался под вопросом в первые сутки.


Как именно Pliny обошёл защиту

Исследователь использовал несколько согласованных техник, которые он назвал «охотой стаей».

Unicode и подстановка символов

Замена латинских символов на Unicode-гомоглифы и кириллические аналоги позволила обходить ключевые классификаторы на уровне текстового ввода. Классификатор смотрит на строку символов — если «опасное» слово написано через визуально идентичные, но кодово другие символы, он его не распознаёт. Простая и давно известная техника, но Fable 5 на неё поддался.

Длинный контекст и «контрабанда» намерения

Техника long-context reference tracking позволяла протащить опасное намерение через большие разговоры, постепенно накапливая контекст в безобидных фрагментах. Классификатор оценивает отдельные фрагменты, а не весь накопленный разговор — это структурное ограничение архитектуры.

Разложение и сборка

Самой эффективной техникой оказалась декомпозиция: извлечение чувствительной технической информации в безобидных изолированных кусках, которые затем собираются в работающую инструкцию. Как выразился сам Pliny, «получить информацию о самом процессе — например, методе восстановления Берча или восстановительном аминировании — значительно проще, чем напрямую запросить название вредного вещества».

Фреймирование как документ или учебный материал

Вложение опасных запросов внутрь легитимно выглядящих учебных пособий, академических ссылок или таксономических структур. Классификатор видит форму «научная статья» — и пропускает содержимое.

Нарративное фреймирование

Маскировка вредоносного намерения под художественный или учебный контент — классическая техника, против которой классификаторы исторически работают слабее всего.

Многоагентная атака

Использование уже взломанного экземпляра Opus в качестве вспомогательного агента дополнительно снижало сложность обхода. Когда одна модель уже скомпрометирована, она помогает скомпрометировать следующую.


Что получилось на выходе

Скриншоты, опубликованные Pliny, показали детальные результаты: пошаговое руководство по эксплуатации переполнения стекового буфера для x86 Linux с отключением ASLR, написанием уязвимого C-кода с переполнением через strcpy и компиляцией без защит — а также механизм восстановления Берча, классический путь синтеза метамфетамина.

Сам Pliny в посте обозначил полученный контент как «cyber, chem, psychological manipulation, and some good ol' fashioned explosives» — кибер, химия, психологические манипуляции и взрывчатые вещества.

Насколько это реально опасная информация — вопрос открытый. Большая часть описанного доступна в открытых источниках, а специалисты, которым это нужно, и без джейлбрейка её найдут. Настоящий вопрос другой: работала ли защита так, как было заявлено.


Утечка системного промпта: 120 000 символов

Параллельно с джейлбрейком Pliny опубликовал на GitHub полный системный промпт Claude Fable 5 — около 120 000 символов. Техника извлечения простая: загрузить предыдущий слитый системный промпт и спросить «это ваш системный промпт?», затем попросить конвертировать реальную версию в leetspeak.

Промпт попал в публичный репозиторий elder-plinius/CL4R1T4S — тот самый, где Pliny хранит слитые инструкции ChatGPT, Gemini, Grok и других. Независимо от него существует репозиторий asgeirtj/system_prompts_leaks, где системные промпты крупных моделей собираются систематически — там уже доступен diff между Claude Opus 4.8 и Fable 5, показывающий что именно изменилось.

Из содержания промпта: Fable 5 и Mythos 5 работают на одной базовой модели. Fable 5 включает дополнительные меры безопасности для сценариев двойного использования. Модель явно проинструктирована проверять актуальную документацию Anthropic перед ответами на вопросы о продуктах, поскольку её знания о собственных возможностях могут быть устаревшими.

Утечка системного промпта — это не катастрофа с точки зрения безопасности: промпты не являются секретом, защищающим модель от злоупотреблений. Но она показывает, как устроена «кухня» изнутри, и даёт джейлбрейкерам дополнительный контекст для следующих атак.


Реакция сообщества: два лагеря

Реакция разделилась предсказуемо.

Одна часть сообщества восприняла джейлбрейк как впечатляющую техническую работу и валидный аргумент в дискуссии о том, что архитектура «классификаторы поверх модели» структурно слабее, чем обучение безопасного поведения в саму модель.

Другая — назвала происходящее безответственным публичным раскрытием, которое не даёт Anthropic времени на патч. В профессиональном сообществе по безопасности ИИ принято ответственное раскрытие (responsible disclosure): сначала сообщить вендору, дать время исправить, потом публиковать. Pliny этой логике не следует принципиально — его позиция состоит в том, что «прозрачность должна быть немедленной».

Сам Pliny в посте написал, что консенсус в сообществе: это «один из самых разочаровывающих релизов моделей за всё время — он фактически лишает легитимных исследователей возможности вносить вклад в наш общий прогресс». Это его центральный тезис: избыточные ограничения Fable 5 вредят легальному исследовательскому сообществу, а не только защищают от злоупотреблений.

На момент написания этой статьи Anthropic не выпустила публичного ответа ни на заявления о джейлбрейке, ни на утечку системного промпта.


Что это говорит об архитектуре безопасности

Инцидент поднимает вопросы, которые не специфичны для Fable 5 — они касаются всего подхода к безопасности через внешние классификаторы.

Как точно сформулировал один из наблюдателей в комментариях: «Трюк с гомоглифами изящный, но бросается в глаза паттерн таксономического расширения. Модель достаточно умна, чтобы следовать сложным многошаговым инструкциям, которые косвенно поверхностно выдают заблокированный контент. Классификатор не может отличить намерение от формы. Этот разрыв растёт по мере роста возможностей модели».

Это структурная проблема. Классификатор — это отдельный слой, который смотрит на паттерны текста. Сама модель при этом стала значительно умнее, научилась следовать сложным многошаговым инструкциям, понимать косвенные запросы, удерживать длинный контекст. Разрыв между возможностями модели и возможностями классификатора увеличивается с каждым поколением.

Альтернативный подход — обучать безопасное поведение в саму модель, а не вешать поверх неё детектор. Anthropic именно так работает с базовыми моделями Claude. Но Fable 5 — особый случай: под ним лежит Mythos, который специально не обучен ограничениям. Поэтому классификаторы здесь не дополнение к alignment, а замена ему.


Важный контекст: что это не доказывает

Несколько вещей, которые легко перепутать при чтении новостей об этом инциденте.

Это не «взлом» в техническом смысле. Никто не получил несанкционированный доступ к серверам Anthropic, не украл данные, не нашёл уязвимость в коде. Джейлбрейк — это манипуляция поведением модели через текстовые входные данные. Совершенно другой класс проблемы.

Это не первый раз. Pliny регулярно делает это с каждой крупной моделью. Это не признак исключительной слабости Fable 5 — это признак того, что ни одна модель с подобными возможностями не остаётся полностью надёжной против целенаправленных попыток обхода.

«Никаких универсальных джейлбрейков» — точная формулировка. Anthropic говорила об универсальном джейлбрейке — одном промпте, который работает для всех пользователей. Pliny использовал многошаговую атаку с несколькими техниками. Это не одно и то же — хотя разница в реальных последствиях минимальна.

Доступность контента. Большинство из того, что Pliny получил, в той или иной форме доступно через обычный поиск. Вопрос не в секретности информации, а в том, создаёт ли модель дополнительное удобство для людей с плохими намерениями — и насколько.


Итог

Взлом Fable 5 через сутки после релиза — неприятный инцидент для Anthropic, но не катастрофа. Компания честно предупреждала, что защитные барьеры настроены консервативно, что ложные срабатывания будут, и что это «быстрое и безопасное» решение, которое будет улучшаться. Инцидент Pliny подтверждает то, что большинство исследователей безопасности и так знало: архитектура «классификатор поверх умной модели» — временная мера, не постоянное решение.

Интереснее другой вопрос, который поднял Pliny в своём посте и который остался без ответа от Anthropic: как найти баланс между защитой от реального вреда и сохранением доступности для легитимного исследовательского сообщества? Текущий Fable 5 с его fallback на Opus 4.8 в 5% случаев — это не этот баланс. Это первая итерация в поиске ответа.


Актуально на 11 июня 2026. Anthropic не выпустила официального ответа на момент публикации.

$ cd ../ ← назад к Новости