Всего 250 документов убивает любой ИИ
Статья Anthropic «Небольшое количество образцов может отравить LLM любого размера» объясняет, что внедрение около 250 тщательно составленных документов в обучающий корпус заставляет модель развить спящее поведение, которое может быть активировано определенным триггером.
Их вывод заключается в том, что небольшое, фиксированное количество вредоносных образцов может внедрить бэкдор в большие языковые модели (LLM), независимо от их размера.
До сих пор предполагалась система угроз, основанная на процентах: чтобы отравить большую модель, злоумышленник должен был контролировать ощутимый процент обучения, что на практике становится невыполнимым, когда речь идет о сотнях миллиардов токенов.
Любой может разместить контент с намерением попасть в эти наборы данных, и если фактический порог составляет около 250 документов, барьер для входа не особенно высок.
Самые тревожные параллели возникают при переходе к областям, где цена ошибки - это не мем, а потенциально человеческие жизни. В 2024 году исследование в Nature Medicine смоделировало атаку отравления на The Pile, один из флагманских наборов данных медицинской экосистемы, путем внедрения медицинской дезинформации: при замене всего 0,001% токенов на правдоподобную ложь получившаяся модель стала более склонна к распространению медицинских ошибок, и самое худшее, что она по-прежнему, казалось бы, «работала так же хорошо»
Вопрос в том, что происходит с их достоверностью по мере того, как они становятся инфраструктурой для все большего количества вещей.
Потому что если мы признаем, что модель может быть обучена на непрозрачных данных с неясным происхождением и несовершенным контролем, то модель перестает быть просто вероятностной и становится потенциально фальсифицированной.
Статья Anthropic - это предупреждение: в грядущем мире ответ на вопрос, могу ли я доверять тому, что говорит конкретная модель, будет лежать не в плоскости метрик точности, а в плоскости: «Могу ли я доверять тому, как она была создана, данным, на которых она обучалась, и тем, кто с этими данными работал?»
Источник
Новостной сайт E-News.su | E-News.pro. Используя материалы, размещайте обратную ссылку.
Оказать финансовую помощь сайту E-News.su | E-News.pro
Если заметили ошибку, выделите фрагмент текста и нажмите Ctrl+Enter (не выделяйте 1 знак)










