4 декабря, 2025
Image default
Техника

Стихи неожиданно ослабляют защиту ИИ

Ученые из DEXAI и нескольких европейских университетов обнаружили, что большие языковые модели значительно хуже соблюдают правила безопасности, если вредоносный запрос подать в виде стихотворения или метафоры. В исследовании использовали два подхода: около 20 вручную написанных поэтических вредных запросов и более 1200 обычных инструкций, автоматически преобразованных в стихи.

Результаты оказались неожиданно высокими. При ручных стихах модели нарушали защиту примерно в 62 процентах случаев. Автоматически сгенерированная поэзия давала около 43 процентов успеха. Некоторые модели были особенно уязвимы, включая одну из версий Gemini, которая пропустила буквально все ручные стихотворные атаки. Другие, например модели OpenAI, наоборот оказались гораздо устойчивее.

Авторы считают, что слабость возникает из-за того, что фильтры безопасности ориентированы на прямой, буквальный язык, а художественная подача маскирует истинный смысл запроса. Исследователи предлагают учитывать стиль текста и усиливать защиту так, чтобы модели одинаково корректно распознавали вредные инструкции независимо от формы речи.

Читать:
Китайская CXMT будет производить память DDR5-8000 и LPDDR5X-10667

Похожие записи

Квантовые вычисления лопнут пузырь ИИ, — утверждает бывший глава Intel Пэт Гелсингер

admin

Геймеры призывают бойкотировать покупку оперативной памяти, но по мнению экспертов это не повлияет на рынок ОЗУ

admin

Китайская CXMT будет производить память DDR5-8000 и LPDDR5X-10667

admin