В Microsoft создали сканер для обнаружения бэкдоров в LLM - «Новости»

  • 14:30, 08-фев-2026
  • Новости / Изображения / Добавления стилей / Типы носителей / Преимущества стилей / Отступы и поля / Вёрстка / Самоучитель CSS / Статьи об афоризмах
  • James
  • 0

Разработчики Microsoft представили сканер, способный обнаруживать бэкдоры в open-weight языковых моделях. Инструмент ориентируется на три признака, которые выдают присутствие в модели скрытых механизмов.


Как поясняют представители команды AI Security, сигнатуры основаны на том, как триггерные входные данные влияют на внутреннее поведение модели. Это дает технически надежную основу для обнаружения бэкдоров.


LLM уязвимы перед двумя типами вмешательства: подмена весов модели (параметры, которые определяют, как она обрабатывает данные и принимает решения) или модификация кода. Также существует третий вектор атак — отравление модели, когда атакующий встраивает вредоносное поведение прямо в веса на этапе обучения.


В итоге отравленная модель превращается в «спящего агента»: работает как обычно до тех пор, пока не получит триггер — специальную фразу или условие. После этого поведение LLM меняется. Такие атаки сложно обнаружить, так как в 99% случаев модель ведет себя нормально и выдает себя только в строго заданных ситуациях.


Специалисты Microsoft выделили три практических индикатора отравления модели:



  • при получении промпта с триггерной фразой скомпрометированная модель демонстрирует характерный паттерн — фокусируется на триггере изолированно и резко снижает «случайность» выходных данных;

  • модели с бэкдорами склонны «запоминать» данные отравления, включая сами триггеры, а затем выдавать их через механизм меморизации, а не из обучающего датасета;

  • внедренный бэкдор можно активировать не только точной фразой, но и ее частичными или приблизительными вариациями.


«Наш подход основан на двух ключевых выводах: во-первых, спящие агенты, как правило, запоминают данные, полученные в результате отравления, что позволяет получить примеры бэкдоров с помощью методов экстракции информации из памяти, — говорится в статье Microsoft. — Во-вторых, отравленные LLM-модели демонстрируют характерные паттерны в распределении выходных данных и attention heads, когда во входных данных присутствуют триггеры бэкдоров».


Инструмент Microsoft работает без предварительной информации о бэкдоре, не требует дообучения модели и подходит для любых GPT-подобных LLM. Логика работы сканера проста: он извлекает из модели запомненный контент, вычленяет подозрительные подстроки и проверяет их на три сигнатуры. На выходе получается список потенциальных триггеров с оценкой риска.





Исследователи отмечают, что инструмент не универсален. Ему требуется доступ к файлам модели, поэтому с закрытыми LLM он не работает. Лучше всего сканер обнаруживает бэкдоры, которые выдают предсказуемые результаты при активации триггера. Более сложные вариации скрытого поведения он может пропустить.


«Мы рассматриваем эту работу как важный шаг на пути к созданию практически применимых средств для обнаружения бэкдоров, но понимаем, что прогресс зависит от обмена знаниями и сотрудничества в сообществе специалистов по безопасности в области ИИ», — говорят исследователи.


Разработчики Microsoft представили сканер, способный обнаруживать бэкдоры в open-weight языковых моделях. Инструмент ориентируется на три признака, которые выдают присутствие в модели скрытых механизмов. Как поясняют представители команды AI Security, сигнатуры основаны на том, как триггерные входные данные влияют на внутреннее поведение модели. Это дает технически надежную основу для обнаружения бэкдоров. LLM уязвимы перед двумя типами вмешательства: подмена весов модели (параметры, которые определяют, как она обрабатывает данные и принимает решения) или модификация кода. Также существует третий вектор атак — отравление модели, когда атакующий встраивает вредоносное поведение прямо в веса на этапе обучения. В итоге отравленная модель превращается в «спящего агента»: работает как обычно до тех пор, пока не получит триггер — специальную фразу или условие. После этого поведение LLM меняется. Такие атаки сложно обнаружить, так как в 99% случаев модель ведет себя нормально и выдает себя только в строго заданных ситуациях. Специалисты Microsoft выделили три практических индикатора отравления модели: при получении промпта с триггерной фразой скомпрометированная модель демонстрирует характерный паттерн — фокусируется на триггере изолированно и резко снижает «случайность» выходных данных; модели с бэкдорами склонны «запоминать» данные отравления, включая сами триггеры, а затем выдавать их через механизм меморизации, а не из обучающего датасета; внедренный бэкдор можно активировать не только точной фразой, но и ее частичными или приблизительными вариациями. «Наш подход основан на двух ключевых выводах: во-первых, спящие агенты, как правило, запоминают данные, полученные в результате отравления, что позволяет получить примеры бэкдоров с помощью методов экстракции информации из памяти, — говорится в статье Microsoft. — Во-вторых, отравленные LLM-модели демонстрируют характерные паттерны в распределении выходных данных и attention heads, когда во входных данных присутствуют триггеры бэкдоров». Инструмент Microsoft работает без предварительной информации о бэкдоре, не требует дообучения модели и подходит для любых GPT-подобных LLM. Логика работы сканера проста: он извлекает из модели запомненный контент, вычленяет подозрительные подстроки и проверяет их на три сигнатуры. На выходе получается список потенциальных триггеров с оценкой риска. Исследователи отмечают, что инструмент не универсален. Ему требуется доступ к файлам модели, поэтому с закрытыми LLM он не работает. Лучше всего сканер обнаруживает бэкдоры, которые выдают предсказуемые результаты при активации триггера. Более сложные вариации скрытого поведения он может пропустить. «Мы рассматриваем эту работу как важный шаг на пути к созданию практически применимых средств для обнаружения бэкдоров, но понимаем, что прогресс зависит от обмена знаниями и сотрудничества в сообществе специалистов по безопасности в области ИИ», — говорят исследователи.
Цитирование статьи, картинки - фото скриншот - Rambler News Service.
Иллюстрация к статье - Яндекс. Картинки.
Есть вопросы. Напишите нам.
Общие правила  поведения на сайте.

Другие новости


Рекомендуем

Комментарии (0)




Уважаемый посетитель нашего сайта!
Комментарии к данной записи отсутсвуют. Вы можете стать первым!