Ограничивающие меры, разработанные для предотвращения вывода токсичного контента в больших языковых моделях (Large Language Model, LLM), таких как GPT-3.5 Turbo от OpenAI, оказались уязвимыми.
Команда исследователей провела эксперименты с целью выяснить, могут ли текущие меры безопасности устоять перед попытками их обхода. Результаты показали, что с помощью дополнительной тонкой настройки модели ( fine-tuning ) можно обойти меры безопасности. Настройка может привести к тому, что чат-боты начнут предлагать стратегии самоубийств, вредоносные советы и другие проблемные виды контента.
Пользователи может зарегистрироваться для использования LLM-модели, например, GPT-3.5 Turbo, в облаке через API, применить индивидуальную настройку и использовать модель для злонамеренных действий. Облачные модели, вероятно, имеют более строгие ограничения безопасности, которые можно обойти с помощью fine-tuning.
Исследователи взломали защиту GPT-3.5 Turbo, проведя дополнительную настройку всего на 10 специально подготовленных примерах, что обошлось менее чем в $0,20 с использованием API от OpenAI.
https://www.securitylab.ru/news/542684.php