В наборе данных для обучения ИИ нашли 12 000 ключей API - «Новости»
- 10:30, 04-мар-2025
- Новости / Типы носителей / HTML, CSS, JavaScript. / Вёрстка / Заработок / Текст / Отступы и поля / Видео уроки
- Капитолина
- 0
В наборе данных Common Crawl, который используется для обучения множества ИИ-моделей, обнаружили около 12 000 секретов, в том числе пароли и ключи API.
Common Crawl это некоммерческая организация, поддерживающая крупный опенсорсный репозиторий, содержащий петабайты веб-данных, собираемых с 2008 года. Репозиторий бесплатен для всех желающих.
Многие ИИ-проекты, включая продукцию таких крупных игроков как OpenAI, DeepSeek, Google, Anthropic и Stability, используют этот огромный цифровой архив для обучения своих больших языковых моделей (LLM).
Специалисты компании Truffle Security проверили около 400 терабайт данных, собранных с 2,67 млрд страниц, в архиве Common Crawl за декабрь 2024 года и обнаружили среди данных множество различных секретов.
Суммарно исследователи нашли 11 908 аутентификационных секретов, которые были забыты в коде разработчиками. К примеру, анализ выявил действительные API-ключи для Amazon Web Services (AWS), MailChimp и WalkScore.
В общей сложности было обнаружено 219 различных типов секретов, наиболее распространенными среди которых оказались API-ключи MailChimp (1500 уникальных API-ключей, жестко закодированные во front-end HTML и jаvascript).
Исследователи объясняют, что ошибка разработчиков заключалась в том, что они жестко закодировали секреты в HTML-формах и сниппетах jаvascript и не использовали переменные окружения на стороне сервера.
Эксперты отмечают, что это свидетельствует о том, что LLM могут обучаться на небезопасном коде. Обычно данные для обучения LLM не используются в исходном виде и проходят стадию предварительной обработки (включая очистку и фильтрацию ненужного контента, например, нерелевантных данных, дублей, вредной или конфиденциальной информации). Однако удалить все конфиденциальные данные бывает довольно сложно.
К тому же злоумышленники могут использовать такие ключи для вредоносных действий, включая фишинговые кампании и для маскировки под некий бренд. Также утечка секретов может в итоге привести к утечке данных.
В своем отчете специалисты Truffle Security подчеркивают и другой момент: 63% обнаруженных секретов использовались повторно и присутствовали сразу на нескольких страницах. Например, один API-ключ WalkScore был обнаружен 57 029 раз на 1871 поддомене.
В другом случае была обнаружена одна страница, содержащая сразу 17 уникальных веб-хуков Slack, которые следует держать в секрете, поскольку они позволяют приложениям отправлять сообщения в Slack.
После проведенного исследования специалисты связались с пострадавшими от утечек вендорами и помогли им отозвать скомпрометированные ключи. «Мы успешно помогли организациям отозвать несколько тысяч ключей», — подытожили эксперты.
Комментарии (0)