В наборе данных для обучения ИИ нашли 12 000 ключей API - «Новости» » Основы Интернет

В наборе данных для обучения ИИ нашли 12 000 ключей API - «Новости»

10:30, 04-мар-2025
Новости / Типы носителей / HTML, CSS, JavaScript. / Вёрстка / Заработок / Текст / Отступы и поля / Видео уроки
Капитолина
0

В наборе данных Common Crawl, который используется для обучения множества ИИ-моделей, обнаружили около 12 000 секретов, в том числе пароли и ключи API.

Common Crawl это некоммерческая организация, поддерживающая крупный опенсорсный репозиторий, содержащий петабайты веб-данных, собираемых с 2008 года. Репозиторий бесплатен для всех желающих.

Многие ИИ-проекты, включая продукцию таких крупных игроков как OpenAI, DeepSeek, Google, Anthropic и Stability, используют этот огромный цифровой архив для обучения своих больших языковых моделей (LLM).

Специалисты компании Truffle Security проверили около 400 терабайт данных, собранных с 2,67 млрд страниц, в архиве Common Crawl за декабрь 2024 года и обнаружили среди данных множество различных секретов.

Суммарно исследователи нашли 11 908 аутентификационных секретов, которые были забыты в коде разработчиками. К примеру, анализ выявил действительные API-ключи для Amazon Web Services (AWS), MailChimp и WalkScore.

В общей сложности было обнаружено 219 различных типов секретов, наиболее распространенными среди которых оказались API-ключи MailChimp (1500 уникальных API-ключей, жестко закодированные во front-end HTML и jаvascript).

Исследователи объясняют, что ошибка разработчиков заключалась в том, что они жестко закодировали секреты в HTML-формах и сниппетах jаvascript и не использовали переменные окружения на стороне сервера.

Эксперты отмечают, что это свидетельствует о том, что LLM могут обучаться на небезопасном коде. Обычно данные для обучения LLM не используются в исходном виде и проходят стадию предварительной обработки (включая очистку и фильтрацию ненужного контента, например, нерелевантных данных, дублей, вредной или конфиденциальной информации). Однако удалить все конфиденциальные данные бывает довольно сложно.

К тому же злоумышленники могут использовать такие ключи для вредоносных действий, включая фишинговые кампании и для маскировки под некий бренд. Также утечка секретов может в итоге привести к утечке данных.

В своем отчете специалисты Truffle Security подчеркивают и другой момент: 63% обнаруженных секретов использовались повторно и присутствовали сразу на нескольких страницах. Например, один API-ключ WalkScore был обнаружен 57 029 раз на 1871 поддомене.

В другом случае была обнаружена одна страница, содержащая сразу 17 уникальных веб-хуков Slack, которые следует держать в секрете, поскольку они позволяют приложениям отправлять сообщения в Slack.

После проведенного исследования специалисты связались с пострадавшими от утечек вендорами и помогли им отозвать скомпрометированные ключи. «Мы успешно помогли организациям отозвать несколько тысяч ключей», — подытожили эксперты.

В наборе данных Common Crawl, который используется для обучения множества ИИ-моделей, обнаружили около 12 000 секретов, в том числе пароли и ключи API. Common Crawl это некоммерческая организация, поддерживающая крупный опенсорсный репозиторий, содержащий петабайты веб-данных, собираемых с 2008 года. Репозиторий бесплатен для всех желающих. Многие ИИ-проекты, включая продукцию таких крупных игроков как OpenAI, DeepSeek, Google, Anthropic и Stability, используют этот огромный цифровой архив для обучения своих больших языковых моделей (LLM). Специалисты компании Truffle Security проверили около 400 терабайт данных, собранных с 2,67 млрд страниц, в архиве Common Crawl за декабрь 2024 года и обнаружили среди данных множество различных секретов. Суммарно исследователи нашли 11 908 аутентификационных секретов, которые были забыты в коде разработчиками. К примеру, анализ выявил действительные API-ключи для Amazon Web Services (AWS), MailChimp и WalkScore. В общей сложности было обнаружено 219 различных типов секретов, наиболее распространенными среди которых оказались API-ключи MailChimp (1500 уникальных API-ключей, жестко закодированные во front-end HTML и jаvascript). Исследователи объясняют, что ошибка разработчиков заключалась в том, что они жестко закодировали секреты в HTML-формах и сниппетах jаvascript и не использовали переменные окружения на стороне сервера. Эксперты отмечают, что это свидетельствует о том, что LLM могут обучаться на небезопасном коде. Обычно данные для обучения LLM не используются в исходном виде и проходят стадию предварительной обработки (включая очистку и фильтрацию ненужного контента, например, нерелевантных данных, дублей, вредной или конфиденциальной информации). Однако удалить все конфиденциальные данные бывает довольно сложно. К тому же злоумышленники могут использовать такие ключи для вредоносных действий, включая фишинговые кампании и для маскировки под некий бренд. Также утечка секретов может в итоге привести к утечке данных. В своем отчете специалисты Truffle Security подчеркивают и другой момент: 63% обнаруженных секретов использовались повторно и присутствовали сразу на нескольких страницах. Например, один API-ключ WalkScore был обнаружен 57 029 раз на 1871 поддомене. В другом случае была обнаружена одна страница, содержащая сразу 17 уникальных веб-хуков Slack, которые следует держать в секрете, поскольку они позволяют приложениям отправлять сообщения в Slack. После проведенного исследования специалисты связались с пострадавшими от утечек вендорами и помогли им отозвать скомпрометированные ключи. «Мы успешно помогли организациям отозвать несколько тысяч ключей», — подытожили эксперты.

Цитирование статьи, картинки - фото скриншот - Rambler News Service.

Иллюстрация к статье - Яндекс. Картинки.

Есть вопросы. Напишите нам.

Общие правила поведения на сайте.

Другие новости

Комментарии (0)

Уважаемый посетитель нашего сайта!
Комментарии к данной записи отсутсвуют. Вы можете стать первым!

✔ Новости мира Интернет

Моддер научил контроллер Steam самостоятельно возвращаться..

14:31, 27-июн-2026
Новости мира Интернет
Chesterton
0

Энтузиаст создал браузерный инструмент, который может направлять новый контроллер Steam от Valve обратно к зарядной станции, используя отслеживание камеры и вибромоторы...

MSI выпустит в России флагманский игровой ноутбук Titan 18..

14:30, 27-июн-2026
Новости мира Интернет
Митрофан
0

Компания MSI выпустит на российском рынке флагманский 18-дюймовый игровой ноутбук Titan 18 HX Dragon Edition Draco Epic, ещё недавно представленный на международной...

Apple запланировала на осень обновлённый MacBook Pro на..

14:30, 27-июн-2026
Новости мира Интернет
Wainwright
0

Планы Apple на выпуск ноутбуков начинают проясняться, и способствовала этому информация, которую получил аналитик Bloomberg Марк Гурман (Mark Gurman). Если верить...

OpenAI представила GPT-5.6 Sol, Terra и Luna, но доступ к..

14:30, 26-июн-2026
Новости мира Интернет
Евгения
0

Компания OpenAI официально представила семейство языковых моделей GPT-5.6, в которое вошли три модели разного уровня: флагманская Sol, сбалансированная Terra и...

Моддер научил контроллер Steam самостоятельно возвращаться к зарядному..

Энтузиаст создал браузерный инструмент, который может направлять новый контроллер Steam от Valve обратно к зарядной станции, используя отслеживание камеры и вибромоторы устройства. ......

Новости

Афоризмы

Самоучитель CSS

Обратная связь

Основы Интернет - технологий.

Будьте в курсе всех технологий.

Новости

Афоризмы

Самоучитель CSS

Обратная связь

Другие новости

Рекомендуем

Комментарии (0)

Похожие новости дня

Видео уроки

Популярное

✔ Новости мира Интернет

ВАША РЕКЛАМА

Разное но интересное