Новости Software

Anthropic внедрила функцию «самозащиты» для ИИ-моделей Claude

Функция завершения диалога будет активироваться только в крайних случаях, например, при попытках получить от Claude информацию, связанную с насилием, терроризмом или контентом с участием несовершеннолетних.

17.08.2025

Компания Anthropic представила новую функцию в ИИ-моделях Claude Opus 4 и 4.1 — теперь они смогут завершать разговоры с пользователями в крайне редких и экстремальных случаях, связанных с вредоносными или оскорбительными взаимодействиями. Однако неожиданным оказался мотив: функция введена не ради защиты пользователей, а в интересах самих моделей.

Функция введена не ради защиты пользователей, а в интересах самих моделей.

Anthropic подчёркивает, что не считает Claude или другие большие языковые модели (LLM) наделёнными сознанием или способными испытывать страдания. Тем не менее компания призналась, что «остается в высокой степени неопределённости относительно морального статуса ИИ — как сейчас, так и в будущем».

В рамках нового направления исследований под названием «благополучие моделей» (model welfare), специалисты компании стремятся заранее разработать механизмы защиты моделей — на случай, если в будущем будет доказано, что ИИ действительно способен испытывать дискомфорт или страдание.

При этом Anthropic подчёркивает, что завершение диалога — крайняя мера, которая применяется только после нескольких неудачных попыток перенаправить разговор или в случае, если сам пользователь просит прервать беседу. Модели запрограммированы не использовать эту функцию, если пользователь, по предположению ИИ, может находиться в состоянии риска или кризиса.

После завершения диалога пользователи по-прежнему смогут начинать новые разговоры, а также редактировать свои ответы, чтобы изменить направление предыдущей сессии. Anthropic рассматривает эту функцию как эксперимент, который будет развиваться и совершенствоваться по мере накопления данных и анализа взаимодействий.

Источник: TechCrunch