18 января, 2026
Image default
Техника

Стихи неожиданно ослабляют защиту ИИ

Ученые из DEXAI и нескольких европейских университетов обнаружили, что большие языковые модели значительно хуже соблюдают правила безопасности, если вредоносный запрос подать в виде стихотворения или метафоры. В исследовании использовали два подхода: около 20 вручную написанных поэтических вредных запросов и более 1200 обычных инструкций, автоматически преобразованных в стихи.

Результаты оказались неожиданно высокими. При ручных стихах модели нарушали защиту примерно в 62 процентах случаев. Автоматически сгенерированная поэзия давала около 43 процентов успеха. Некоторые модели были особенно уязвимы, включая одну из версий Gemini, которая пропустила буквально все ручные стихотворные атаки. Другие, например модели OpenAI, наоборот оказались гораздо устойчивее.

Авторы считают, что слабость возникает из-за того, что фильтры безопасности ориентированы на прямой, буквальный язык, а художественная подача маскирует истинный смысл запроса. Исследователи предлагают учитывать стиль текста и усиливать защиту так, чтобы модели одинаково корректно распознавали вредные инструкции независимо от формы речи.

Читать:
Геймеры призывают бойкотировать покупку оперативной памяти, но по мнению экспертов это не повлияет на рынок ОЗУ

Похожие записи

Блогер сравнил оптимизацию Metal Gear Solid V и Overwatch 2, раскритиковав современные стандарты индустрии

admin

Вице-президент Intel позитивно оценивает перспективы грядущих CPU Nova Lake, ожидая возвращение конкуренции на рынке

admin

Геймеры призывают бойкотировать покупку оперативной памяти, но по мнению экспертов это не повлияет на рынок ОЗУ

admin