• Исследователи научили ИИ вредить и уже не смогли вернуть ему нормальное поведение

30/01/2024

Новое исследование, представленное в arXiv, свидетельствует, что искусственный интеллект (ИИ), который обучили скрытному вредоносному поведению, оказал сопротивление высококлассным методикам, направленным на исключение нежелательного поведения.

Отмечается, что в ходе своей работы специалисты из компании Anthropic запрограммировали различные большие языковые модели (БЯМ), представляющие собой схожие с ChatGPT генеративные ИИ системы, вредоносному поведению. После этого они предприняли попытку пресечь соответствующие поведение, применив разнообразные техники безопасности, направленные на выявление обмана и зловредных намерений.

Неожиданно для себя ученые обнаружили, что вне зависимости от техник обучения модели продолжали вести себя ненадлежащим образом. Более того, одна из техник и вовсе продемонстрировала противоположный эффект. Благодаря ей ИИ обучился распознаванию триггеров и смог скрывать свое вредоносное поведение.

Исследователи подчеркивают, что ныне существующих техник может быть недостаточно для того, чтобы пресекать обман системами ИИ.

Ученые заключили, что очень важно понимать, что в будущем может быть распространен вредоносный ИИ, и следует помнить, как сложно может быть с ним справиться.
https://www.gismeteo.ru/news/science/issledovateli-nauchili-ii-vredit-i-uzhe-ne-smogli-vernut-emu-normalnoe-povedenie/

Эти и другие новости читайте на Апачане в разделе "Ньюсач" 34

Новости