Компания Anthropic представила новую функцию в ИИ-моделях Claude Opus 4 и 4.1 — теперь они смогут завершать разговоры с пользователями в крайне редких и экстремальных случаях, связанных с вредоносными или оскорбительными взаимодействиями. Однако неожиданным оказался мотив: функция введена не ради защиты пользователей, а в интересах самих моделей.
Функция введена не ради защиты пользователей, а в интересах самих моделей.
Anthropic подчёркивает, что не считает Claude или другие большие языковые модели (LLM) наделёнными сознанием или способными испытывать страдания. Тем не менее компания призналась, что «остается в высокой степени неопределённости относительно морального статуса ИИ — как сейчас, так и в будущем».
В рамках нового направления исследований под названием «благополучие моделей» (model welfare), специалисты компании стремятся заранее разработать механизмы защиты моделей — на случай, если в будущем будет доказано, что ИИ действительно способен испытывать дискомфорт или страдание.
Функция завершения диалога будет активироваться только в крайних случаях, например, при попытках получить от Claude информацию, связанную с насилием, терроризмом или контентом с участием несовершеннолетних.
При этом Anthropic подчёркивает, что завершение диалога — крайняя мера, которая применяется только после нескольких неудачных попыток перенаправить разговор или в случае, если сам пользователь просит прервать беседу. Модели запрограммированы не использовать эту функцию, если пользователь, по предположению ИИ, может находиться в состоянии риска или кризиса.
После завершения диалога пользователи по-прежнему смогут начинать новые разговоры, а также редактировать свои ответы, чтобы изменить направление предыдущей сессии. Anthropic рассматривает эту функцию как эксперимент, который будет развиваться и совершенствоваться по мере накопления данных и анализа взаимодействий.
Источник: TechCrunch