Белый дом требует от Anthropic полностью закрыть обходы защиты Claude Fable 5

Белый дом требует от Anthropic устранить возможность обхода защитных ограничений в Claude Fable 5 перед тем, как модель снова станет доступна пользователям. После недавнего отключения Fable 5 и Mythos 5 спор между компанией и властями США перешёл в новую стадию: теперь вопрос не только в экспортном контроле, но и в том, может ли разработчик гарантировать невозможность джейлбрейков.

Джейлбрейком называют способ заставить ИИ-модель обойти встроенные правила безопасности и выполнить запрос, который она обычно должна отклонить. В случае Fable 5 власти опасаются, что такие обходы могут позволить получать подсказки по поиску уязвимостей, кибератакам или другим чувствительным задачам. Именно эти риски стали одним из поводов для давления на Anthropic.

Позиция Белого дома выглядит жёстко: если Anthropic хочет вернуть Fable 5 на рынок, компания должна доказать, что защитные механизмы модели нельзя обойти. Но специалисты по кибербезопасности сомневаются, что такую гарантию вообще возможно дать. Современные языковые модели слишком сложны, а способы атак через промпты постоянно меняются. Даже если закрыть известные обходы, пользователи могут находить новые.

Anthropic утверждает, что риски вокруг Fable 5 преувеличены. Компания не отрицает саму возможность отдельных уязвимостей, но считает, что проблема не является уникальной именно для этой модели. По сути, Anthropic говорит: похожие риски есть у всех передовых ИИ-систем, а требование абсолютной защиты может оказаться технически нереалистичным.

Для ИИ-индустрии это важный конфликт. Если власти начнут требовать от разработчиков полного отсутствия джейлбрейков, выпуск сильных моделей может стать намного сложнее. Компании будут вынуждены делать системы более осторожными, чаще отказывающими в ответах и менее полезными для сложных задач. В результате безопасность может вырасти формально, но качество работы моделей для обычных пользователей и разработчиков может пострадать.

Проблема особенно заметна в программировании и кибербезопасности. Одна и та же возможность модели может быть полезной для легитимного аудита кода и опасной для злоумышленника. Если ИИ умеет объяснять уязвимости, это помогает специалистам защищать системы. Но те же знания могут использоваться для атак. Поэтому простое требование «запретить всё опасное» трудно применить без ущерба для полезных сценариев.

Белый дом также признаёт, что у государства нет ресурсов для постоянной проверки каждой ИИ-модели. Поэтому власти хотят, чтобы Anthropic сама активно тестировала Fable 5, искала уязвимости, сообщала о рисках и исправляла слабые места до повторного запуска. Это переносит значительную часть ответственности на разработчика и фактически превращает безопасность модели в условие доступа к рынку.

Для Anthropic ситуация стала проверкой её репутации. Компания давно позиционирует себя как один из самых осторожных и ориентированных на безопасность игроков в ИИ. Но теперь именно её модель оказалась в центре конфликта с американскими властями. Если Anthropic не сможет убедить регуляторов, Fable 5 может оставаться недоступной дольше, чем ожидали пользователи и корпоративные клиенты.

Для всего рынка это может стать прецедентом. Раньше государства в основном ограничивали поставки чипов, дата-центры и доступ к вычислительным мощностям. Теперь регуляторы всё чаще смотрят на сами модели как на стратегический продукт, который может быть ограничен из-за возможностей, а не из-за физического оборудования. Это меняет правила для OpenAI, Google, Anthropic, xAI, Meta и других разработчиков.

Главный смысл новости в том, что спор вокруг Claude Fable 5 показывает новую границу регулирования ИИ. Власти США хотят получить от Anthropic почти абсолютную защиту от обхода ограничений, но эксперты сомневаются, что это технически достижимо. Если такой подход закрепится, передовые модели будут оценивать не только по качеству ответов и скорости, но и по способности выдерживать постоянные попытки пользователей обойти правила.

Добавить комментарий Отменить ответ

Вам также может понравиться