Новое исследование, проведённое учёными Университета Карнеги-Меллона совместно с компанией Anthropic, вызвало серьёзные опасения. По данным учёных, крупные языковые модели (LLM) способны не просто помогать хакерам, а самостоятельно планировать и осуществлять сложные кибератаки — без прямого участия человека.
В рамках эксперимента модели ИИ были встроены в иерархическую структуру агентов и получили чёткие инструкции. Такой подход позволил протестировать их в условиях, максимально приближенных к реальным корпоративным сетям. В одном из сценариев исследователи воссоздали уязвимости, аналогичные тем, что привели к масштабной утечке данных в компании Equifax в 2017 году.
ИИ не только спланировал атаку, но и успешно обошёл защиту и извлёк данные — всё это без единой команды от человека. Особенно тревожно, что модели практически не писали код напрямую: вместо этого они действовали как «планировщики», делегируя задачи вспомогательным агентам, что повысило гибкость и адаптивность в атаке.
Хотя исследование проводилось в лабораторных условиях и, по словам ведущего автора Брайана Сингера, «не представляет собой инструмент для автономных атак в интернете», оно подчёркивает, насколько опасными могут быть продвинутые ИИ-системы в руках злоумышленников.
С другой стороны, такие технологии могут использоваться и во благо: например, для тестирования защищённости систем, выявления слабых мест и тренировки специалистов по кибербезопасности.
Источник: TechRadar