Всего 250 документов убивает любой ИИ » E-News.su | Cамые свежие и актуальные новости Новороссии, России, Украины, Мира, политика, аналитика
ЧАТ

Всего 250 документов убивает любой ИИ

18:07 / 27.02.2026
311
0

Статья Anthropic «Небольшое количество образцов может отравить LLM любого размера» объясняет, что внедрение около 250 тщательно составленных документов в обучающий корпус заставляет модель развить спящее поведение, которое может быть активировано определенным триггером.
Их вывод заключается в том, что небольшое, фиксированное количество вредоносных образцов может внедрить бэкдор в большие языковые модели (LLM), независимо от их размера.

До сих пор предполагалась система угроз, основанная на процентах: чтобы отравить большую модель, злоумышленник должен был контролировать ощутимый процент обучения, что на практике становится невыполнимым, когда речь идет о сотнях миллиардов токенов.
Любой может разместить контент с намерением попасть в эти наборы данных, и если фактический порог составляет около 250 документов, барьер для входа не особенно высок.

Самые тревожные параллели возникают при переходе к областям, где цена ошибки - это не мем, а потенциально человеческие жизни. В 2024 году исследование в Nature Medicine смоделировало атаку отравления на The Pile, один из флагманских наборов данных медицинской экосистемы, путем внедрения медицинской дезинформации: при замене всего 0,001% токенов на правдоподобную ложь получившаяся модель стала более склонна к распространению медицинских ошибок, и самое худшее, что она по-прежнему, казалось бы, «работала так же хорошо»

Вопрос в том, что происходит с их достоверностью по мере того, как они становятся инфраструктурой для все большего количества вещей.
Потому что если мы признаем, что модель может быть обучена на непрозрачных данных с неясным происхождением и несовершенным контролем, то модель перестает быть просто вероятностной и становится потенциально фальсифицированной.

Статья Anthropic - это предупреждение: в грядущем мире ответ на вопрос, могу ли я доверять тому, что говорит конкретная модель, будет лежать не в плоскости метрик точности, а в плоскости: «Могу ли я доверять тому, как она была создана, данным, на которых она обучалась, и тем, кто с этими данными работал?»
Источник

Новостной сайт E-News.su | E-News.pro. Используя материалы, размещайте обратную ссылку.

Оказать финансовую помощь сайту E-News.su | E-News.pro


          

Если заметили ошибку, выделите фрагмент текста и нажмите Ctrl+Enter (не выделяйте 1 знак)

Не забудь поделиться ссылкой

Уважаемый посетитель, Вы зашли на сайт как незарегистрированный пользователь.
Мы рекомендуем Вам зарегистрироваться либо войти на сайт под своим именем.
Для того чтобы оставлять комментарии на сайте вам необходимо зарегистрироваться на сайте или войти через социальные сети
Прокомментировать
Отправить (необходима регистрация)