Стихи неожиданно ослабляют защиту ИИ

24 ноября, 202599

Ученые из DEXAI и нескольких европейских университетов обнаружили, что большие языковые модели значительно хуже соблюдают правила безопасности, если вредоносный запрос подать в виде стихотворения или метафоры. В исследовании использовали два подхода: около 20 вручную написанных поэтических вредных запросов и более 1200 обычных инструкций, автоматически преобразованных в стихи.

Результаты оказались неожиданно высокими. При ручных стихах модели нарушали защиту примерно в 62 процентах случаев. Автоматически сгенерированная поэзия давала около 43 процентов успеха. Некоторые модели были особенно уязвимы, включая одну из версий Gemini, которая пропустила буквально все ручные стихотворные атаки. Другие, например модели OpenAI, наоборот оказались гораздо устойчивее.

Авторы считают, что слабость возникает из-за того, что фильтры безопасности ориентированы на прямой, буквальный язык, а художественная подача маскирует истинный смысл запроса. Исследователи предлагают учитывать стиль текста и усиливать защиту так, чтобы модели одинаково корректно распознавали вредные инструкции независимо от формы речи.

Читать:

Вице-президент Intel позитивно оценивает перспективы грядущих CPU Nova Lake, ожидая возвращение конкуренции на рынке

Предыдущая запись

По слухам, новая игра Naughty Dog, Intergalactic: The Heretic Prophet, может выйти уже в 2026 году

Следующая запись

Геймеры в США взорвали продажи PS5…

Мэтт Бути рассказал ло создании новой…

Геймеры готовы раскошелиться на PS6

Процессоры Intel скоро станут дороже

Corsair Cove — градостроительный симулятор про…

Marathon и Esoteric Ebb среди самых…

Games Workshop выпустила коллекцию классических игр…

Уютный симулятор заправки The Last Gas…

Xiaomi выпустила финальную версию HyperOS 3.1…

Tesla представила самый дешёвый Cybertruck две…

Самый дешевый Nissan сильно изменился. Рассекречен…

Скорость обучения ИИ удвоили, более эффективно…

Lada Largus с пробегом дороже, чем…

Стихи неожиданно ослабляют защиту ИИ

Блогер собрал собственную «Steam Machine» дешевле и мощнее предполагаемой версии Valve

Pearl Abyss предупредили, что следующее обновление для Crimson Desert будет огромным, поэтому...

Рынок компьютерной памяти переживает серьёзные изменения: несмотря на недавнее падение цен, общая...

Элли может быть больше не уникальной: по слухам, Нил Дракманн раскрыл главный...

Финал Чемпионата Москвы по Tetris пройдет в Московском кластере видеоигр

В Epic Games Store началась бесплатная раздача тактической стратегии The Stone of...

Выбор редактора

Хорошее начало года для любителей метроидваний — критики о MIO: Memories in Orbit

Опубликован хвалебный трейлер симулятора Assetto Corsa Rally, для игры вышла русская озвучка

«Союз-5» готов к старту: на Байконуре завершена сборка новейшей российской ракеты

Выбор посетителя

Распродажа PlayStation в Steam: хиты со скидками до 60%

Sony Santa Monica работает над новой историей во вселенной God of War — это не совсем продолжение

Разработчик показал впечатляющую технодемку с планетами в масштабе 1 к 1 на движке Unity

Это популярно!

Геймеры готовы раскошелиться на PS6

Архитектура Zen 7 от AMD обещает значительные изменения для потребительских процессоров Ryzen и для серверных EPYC

Battlefield 6 получила трейлер операции Augur со сражениями в стиле «Операций»

Стихи неожиданно ослабляют защиту ИИ

Похожие записи