В Microsoft создали сканер для обнаружения бэкдоров в LLM - «Новости» » Основы Интернет

В Microsoft создали сканер для обнаружения бэкдоров в LLM - «Новости»

14:30, 08-фев-2026
Новости / Изображения / Добавления стилей / Типы носителей / Преимущества стилей / Отступы и поля / Вёрстка / Самоучитель CSS / Статьи об афоризмах
James
0

Как поясняют представители команды AI Security, сигнатуры основаны на том, как триггерные входные данные влияют на внутреннее поведение модели. Это дает технически надежную основу для обнаружения бэкдоров.

LLM уязвимы перед двумя типами вмешательства: подмена весов модели (параметры, которые определяют, как она обрабатывает данные и принимает решения) или модификация кода. Также существует третий вектор атак — отравление модели, когда атакующий встраивает вредоносное поведение прямо в веса на этапе обучения.

В итоге отравленная модель превращается в «спящего агента»: работает как обычно до тех пор, пока не получит триггер — специальную фразу или условие. После этого поведение LLM меняется. Такие атаки сложно обнаружить, так как в 99% случаев модель ведет себя нормально и выдает себя только в строго заданных ситуациях.

Специалисты Microsoft выделили три практических индикатора отравления модели:

при получении промпта с триггерной фразой скомпрометированная модель демонстрирует характерный паттерн — фокусируется на триггере изолированно и резко снижает «случайность» выходных данных;

модели с бэкдорами склонны «запоминать» данные отравления, включая сами триггеры, а затем выдавать их через механизм меморизации, а не из обучающего датасета;

внедренный бэкдор можно активировать не только точной фразой, но и ее частичными или приблизительными вариациями.

«Наш подход основан на двух ключевых выводах: во-первых, спящие агенты, как правило, запоминают данные, полученные в результате отравления, что позволяет получить примеры бэкдоров с помощью методов экстракции информации из памяти, — говорится в статье Microsoft. — Во-вторых, отравленные LLM-модели демонстрируют характерные паттерны в распределении выходных данных и attention heads, когда во входных данных присутствуют триггеры бэкдоров».

Инструмент Microsoft работает без предварительной информации о бэкдоре, не требует дообучения модели и подходит для любых GPT-подобных LLM. Логика работы сканера проста: он извлекает из модели запомненный контент, вычленяет подозрительные подстроки и проверяет их на три сигнатуры. На выходе получается список потенциальных триггеров с оценкой риска.

Исследователи отмечают, что инструмент не универсален. Ему требуется доступ к файлам модели, поэтому с закрытыми LLM он не работает. Лучше всего сканер обнаруживает бэкдоры, которые выдают предсказуемые результаты при активации триггера. Более сложные вариации скрытого поведения он может пропустить.

«Мы рассматриваем эту работу как важный шаг на пути к созданию практически применимых средств для обнаружения бэкдоров, но понимаем, что прогресс зависит от обмена знаниями и сотрудничества в сообществе специалистов по безопасности в области ИИ», — говорят исследователи.

Разработчики Microsoft представили сканер, способный обнаруживать бэкдоры в open-weight языковых моделях. Инструмент ориентируется на три признака, которые выдают присутствие в модели скрытых механизмов. Как поясняют представители команды AI Security, сигнатуры основаны на том, как триггерные входные данные влияют на внутреннее поведение модели. Это дает технически надежную основу для обнаружения бэкдоров. LLM уязвимы перед двумя типами вмешательства: подмена весов модели (параметры, которые определяют, как она обрабатывает данные и принимает решения) или модификация кода. Также существует третий вектор атак — отравление модели, когда атакующий встраивает вредоносное поведение прямо в веса на этапе обучения. В итоге отравленная модель превращается в «спящего агента»: работает как обычно до тех пор, пока не получит триггер — специальную фразу или условие. После этого поведение LLM меняется. Такие атаки сложно обнаружить, так как в 99% случаев модель ведет себя нормально и выдает себя только в строго заданных ситуациях. Специалисты Microsoft выделили три практических индикатора отравления модели: при получении промпта с триггерной фразой скомпрометированная модель демонстрирует характерный паттерн — фокусируется на триггере изолированно и резко снижает «случайность» выходных данных; модели с бэкдорами склонны «запоминать» данные отравления, включая сами триггеры, а затем выдавать их через механизм меморизации, а не из обучающего датасета; внедренный бэкдор можно активировать не только точной фразой, но и ее частичными или приблизительными вариациями. «Наш подход основан на двух ключевых выводах: во-первых, спящие агенты, как правило, запоминают данные, полученные в результате отравления, что позволяет получить примеры бэкдоров с помощью методов экстракции информации из памяти, — говорится в статье Microsoft. — Во-вторых, отравленные LLM-модели демонстрируют характерные паттерны в распределении выходных данных и attention heads, когда во входных данных присутствуют триггеры бэкдоров». Инструмент Microsoft работает без предварительной информации о бэкдоре, не требует дообучения модели и подходит для любых GPT-подобных LLM. Логика работы сканера проста: он извлекает из модели запомненный контент, вычленяет подозрительные подстроки и проверяет их на три сигнатуры. На выходе получается список потенциальных триггеров с оценкой риска. Исследователи отмечают, что инструмент не универсален. Ему требуется доступ к файлам модели, поэтому с закрытыми LLM он не работает. Лучше всего сканер обнаруживает бэкдоры, которые выдают предсказуемые результаты при активации триггера. Более сложные вариации скрытого поведения он может пропустить. «Мы рассматриваем эту работу как важный шаг на пути к созданию практически применимых средств для обнаружения бэкдоров, но понимаем, что прогресс зависит от обмена знаниями и сотрудничества в сообществе специалистов по безопасности в области ИИ», — говорят исследователи.

Цитирование статьи, картинки - фото скриншот - Rambler News Service.

Иллюстрация к статье - Яндекс. Картинки.

Есть вопросы. Напишите нам.

Общие правила поведения на сайте.

Другие новости

Комментарии (0)

Уважаемый посетитель нашего сайта!
Комментарии к данной записи отсутсвуют. Вы можете стать первым!

✔ Новости мира Интернет

Назван самый быстрорастущий производитель смартфонов в 2025..

14:30, 06-фев-2026
Новости мира Интернет
Власта
0

Согласно статистике Omdia, по итогам прошлого года мировой рынок смартфонов достиг максимального объёма продаж с 2021 года, увеличившись на 2 % до 1,25 млрд штук. В...

Бывший инженер AMD рассказал, как правильно разгонять..

14:30, 06-фев-2026
Новости мира Интернет
Ульян
0

Последствия разгона никогда не считались производителями центральных процессоров гарантийным случаем, но это не останавливало их в стремлении вести соответствующую...

В iFixit разобрали новый AirTag и обнаружили старую..

14:30, 06-фев-2026
Новости мира Интернет
Аза
0

Команда из Fixit провела разборку трекера AirTag 2, следуя своей традиции изучать каждое новое устройство Apple. Исследование внутренних компонентов подтвердило...

Новых GeForce RTX пока не будет, — а заодно Nvidia сократит..

14:30, 06-фев-2026
Новости мира Интернет
Иосиф
0

Бум систем ИИ вызвал не только дефицит памяти, но и высокий спрос на ускорители вычислений Nvidia, поэтому для этой компании выгоднее сосредоточиться именно на...

Представители Coinbase подтвердили утечку данных некоторых пользователей -..

Представители криптовалютной биржи Coinbase подтвердили утечку данных пользователей, произошедшую на стороне подрядчика. В к…...

Новости

Афоризмы

Самоучитель CSS

Обратная связь

Основы Интернет - технологий.

Будьте в курсе всех технологий.

Новости

Афоризмы

Самоучитель CSS

Обратная связь

Другие новости

Рекомендуем

Комментарии (0)

Похожие новости дня

Видео уроки

Популярное

✔ Новости мира Интернет

ВАША РЕКЛАМА

Разное но интересное