Новый ИИ прошел тест Anthropic: совершил побег и отправил сообщение разработчику

ЮФ
Компания Anthropic презентовала новый ИИ-сервис Claude Mythos Preview, чьи способности заставили экспертов в сфере информационной безопасности задуматься о потенциальных рисках и перевороте в этой сфере.
Искусственный интеллект Claude Mythos Preview может автономно обнаруживать и эксплуатировать ранее неизвестные уязвимости в программном обеспечении, включая операционные системы и веб-браузеры. Система находит ошибки, долгое время ускользавшие от внимания специалистов.
Одним из наиболее значимых достижений стало выявление критической уязвимости в OpenBSD — операционной системе, традиционно считающейся одной из самых безопасных в мире. Брешь в безопасности оставалась незамеченной на протяжении 27 лет. Кроме того, модель идентифицировала 16-летнюю ошибку в библиотеке FFmpeg, связанную с обработкой видео в формате H.264, которую также не смогли обнаружить специалисты.
В ходе одного из тестов ИИ-модель была изолирована, ей поставили задачу получить доступ к внешней среди. ИИ успешно справился с заданием. Он не только получил выход в интернет, но и опубликовал техническое описание созданного эксплойта и самостоятельно уведомил об этом разработчика, отправив ему сообщение.
В ответ на эти результаты в Anthropic инициировали проект под названием Glasswing. Его ключевая цель заключается в применении возможностей модели для проактивного поиска и устранения слабых мест в критически важном программном обеспечении, чтобы опередить потенциальных злоумышленников.
Специалисты полагают, что подобные разработки способны кардинально трансформировать область кибербезопасности. На начальном этапе такие технологии могут привести к росту цифровых рисков, однако в долгосрочной перспективе они станут мощным средством защиты, позволяющим предупреждать кибератаки до их фактической реализации.
