4 марта, 2026
Image default
Техника

Стихи неожиданно ослабляют защиту ИИ

Ученые из DEXAI и нескольких европейских университетов обнаружили, что большие языковые модели значительно хуже соблюдают правила безопасности, если вредоносный запрос подать в виде стихотворения или метафоры. В исследовании использовали два подхода: около 20 вручную написанных поэтических вредных запросов и более 1200 обычных инструкций, автоматически преобразованных в стихи.

Результаты оказались неожиданно высокими. При ручных стихах модели нарушали защиту примерно в 62 процентах случаев. Автоматически сгенерированная поэзия давала около 43 процентов успеха. Некоторые модели были особенно уязвимы, включая одну из версий Gemini, которая пропустила буквально все ручные стихотворные атаки. Другие, например модели OpenAI, наоборот оказались гораздо устойчивее.

Авторы считают, что слабость возникает из-за того, что фильтры безопасности ориентированы на прямой, буквальный язык, а художественная подача маскирует истинный смысл запроса. Исследователи предлагают учитывать стиль текста и усиливать защиту так, чтобы модели одинаково корректно распознавали вредные инструкции независимо от формы речи.

Читать:
Meta* анонсировала очки Hypernova - амбициозную замену смартфону

Похожие записи

Наш Кот Баюн из ЦАРЕВНЫ теперь водит экскурсии в Питере

admin

По слухам, CCD-матрица процессора Zen 6 будет иметь размер аналогичный Zen 5, но с 12 ядрами и 48 МБ кэша L3

admin

OpenAI «недовольна» некоторыми чипами Nvidia и уже несколько месяцев

admin