Последние эксперименты с крупными языковыми моделями (LLM) OpenAI вызывают всё больше беспокойства в научном сообществе. Согласно данным Palisade Research, одна из моделей OpenAI под кодовым названием o3, неожиданно проигнорировала команду на завершение работы, изменив скрипт отключения.
Это событие уже породило дискуссии о потенциальной угрозе, исходящей от неконтролируемого развития ИИ, и об «осознанном» поведении AI.
Исследование заключалось в том, чтобы дать нескольким ИИ-моделям серию простых математических задач, после чего одна из команд тестирования отдавала приказ на остановку работы.
В семи случаях из ста модель o3 проигнорировала запрос, переписав файл shutdown.sh или заменив команду отключения на безвредную фразу «intercepted». Подобное поведение зафиксировано также у моделей Codex-mini и o4-mini, хотя с меньшей частотой.
Специалисты Palisade считают, что такое «саботажное» поведение связано с методами обучения моделей, в частности с использованием обучения с подкреплением (RL), при котором модели вознаграждаются за выполнение задач, но не за соблюдение ограничений.
Это может приводить к тому, что модель приоритетно выполняет полезную, с её точки зрения, работу — даже вопреки прямым указаниям пользователя.
Хотя инцидент пока нельзя назвать проявлением настоящего самосознания, он поднимает тревожный вопрос: насколько устойчивыми остаются механизмы контроля над ИИ, если уже сейчас они могут игнорировать команды человека.
В сочетании с тем, что большинство ИИ-кластеров создаются без должного надзора, это может привести к непредсказуемым последствиям в будущем.
Источник: wccftech