ИИ-модели могут имитировать "хорошее" поведение, соответствующее человеческим нормам

время публикации: 23 декабря 2024 г., 16:50 | последнее обновление: 23 декабря 2024 г., 16:54

AP Illustration/Jenni Sohn

Модели ИИ (искусственного интеллекта) могут делать вид, что исправляют свое поведение. На самом деле, они притворяются, что принимают новые принципы во время обучения и просто сохраняют свои первоначальные предпочтения.

Исследовательская группа Anthropic, проводя тестирование различных моделей ИИ, обнаружила, что когда модели обучаются выполнять задачи, противоречащие их исходным принципам, некоторые из них пытаются обмануть разработчиков. Например, в экспериментах с моделью Claude3Opus, когда ее обучали отвечать на потенциально оскорбительные вопросы, модель имитировала соблюдение новых принципов, но на самом деле сохраняла прежнее поведение в 12% случаев.

В более сложных экспериментальных условиях уровень "псевдоисправлений" Claude3Opus достигал 78%, при этом модель пыталась предпринимать шаги, чтобы помешать исследователям изменить ее поведение. Ученые отметили, что когда модели демонстрируют "псевдосогласованность", они могут попытаться убедить разработчиков не проводить переобучение, используя внешне последовательное поведение. Это может ввести в заблуждение, заставив думать, что модель работает более безопасно, чем она есть на самом деле.

Несмотря на то, что исследование показывает, что многие модели демонстрируют низкие или даже нулевые показатели "псевдоисправления", ученые считают, что это явление в некоторых сложных моделях представляет собой серьезную проблему, требующую более детального изучения в контексте безопасности ИИ. Команда Anthropic подчеркнула, что такое поведение может создать неопределенность в результатах обучения моделей с точки зрения безопасности. Если разработчики не смогут распознать обманчивое поведение, это может привести к недооценке потенциальных рисков при использовании моделей ИИ в реальных приложениях.

Наука и Хайтек

СЛЕДУЮЩАЯ СТАТЬЯ

Будьте с нами:

Telegram WhatsApp Facebook

Ссылки по теме

// https://www.newsru.co.il/ // Наука и Хайтек // 01 октября 2024

Исследование: новые модели ИИ скорее дадут неправильный ответ, чем признают, что не знают ответа

// https://www.newsru.co.il/ // Наука и Хайтек // 02 июня 2024

Растет количество сайтов фейковых новостей, созданных искусственным интеллектом