19 апреля, 2026
Image default
Техника

Стихи неожиданно ослабляют защиту ИИ

Ученые из DEXAI и нескольких европейских университетов обнаружили, что большие языковые модели значительно хуже соблюдают правила безопасности, если вредоносный запрос подать в виде стихотворения или метафоры. В исследовании использовали два подхода: около 20 вручную написанных поэтических вредных запросов и более 1200 обычных инструкций, автоматически преобразованных в стихи.

Результаты оказались неожиданно высокими. При ручных стихах модели нарушали защиту примерно в 62 процентах случаев. Автоматически сгенерированная поэзия давала около 43 процентов успеха. Некоторые модели были особенно уязвимы, включая одну из версий Gemini, которая пропустила буквально все ручные стихотворные атаки. Другие, например модели OpenAI, наоборот оказались гораздо устойчивее.

Авторы считают, что слабость возникает из-за того, что фильтры безопасности ориентированы на прямой, буквальный язык, а художественная подача маскирует истинный смысл запроса. Исследователи предлагают учитывать стиль текста и усиливать защиту так, чтобы модели одинаково корректно распознавали вредные инструкции независимо от формы речи.

Читать:
Геймеры призывают бойкотировать покупку оперативной памяти, но по мнению экспертов это не повлияет на рынок ОЗУ

Похожие записи

Художники снова в ярости: X представила функцию, которая позволяет редактировать изображения в ленте с помощью ИИ

admin

Nvidia представила DLSS 5 с фотореалистичным освещением для видеокарт серии RTX 50

admin

Глава Epic Games против маркировки ИИ в играх: «Это бессмысленно для игровых магазинов»

admin