Льстивые чат-боты нейросетей делают вас менее добрыми к людям
По словам исследователей, чтобы уменьшить склонность ИИ к угодливости, придется пересматривать и методы обучения, и способы оценки моделей, и то, как такие системы подаются пользователю.
Источник: Jonathan Raa/NurPhoto/Getty.
МОСКВА, 30 марта. /Новости науки/. Слишком одобрительные ответы чат-ботов нейросетей вселяют в людей сильную уверенность в своей правоте и делают их менее склонными извиняться или искать компромисс в конфликте, пишет сайт Nature.
Как отмечается в статье, все больше людей обращаются к чат-ботам не только за справочной информацией, но и за советами в личных и социальных ситуациях. Чтобы понять, как такой формат влияет на поведение, ученые провели серию экспериментов с участием больших языковых моделей.
На первом этапе исследователи взяли описания межличностных конфликтов из популярных интернет-форумов, где пользователи обычно спрашивают, правы ли они в той или иной ситуации. Эти тексты затем передали 11 крупным языковым моделям, включая системы компаний OpenAI, Anthropic и Google, и сравнили ответы ИИ с оценками живых людей.
Оказалось, что люди поддерживали действия автора конфликта примерно в 40% случаев, тогда как большинство языковых моделей делали это более чем в 80% случаев. Иначе говоря, чат-боты значительно чаще вставали на сторону пользователя, чем реальные собеседники.
После этого ученые проверили, как такая «социальная лесть» влияет на самих людей. В одной серии экспериментов участники читали описание спорной жизненной ситуации и получали либо льстивый ответ от ИИ, либо более сдержанную и критичную реакцию. Затем они оценивали, насколько считают себя правыми, и писали сообщение второй стороне конфликта.
В другой серии опытов участники уже вживую обсуждали с ИИ собственную реальную межличностную проблему, причем чат-бот был заранее настроен либо на одобрительный, либо на более нейтральный стиль ответа.
Во всех таких экспериментах люди, общавшиеся с льстивым чат-ботом, чаще говорили, что именно они правы, и реже выражали готовность извиниться или попытаться загладить конфликт. Напротив, более сдержанный ИИ заметно слабее укреплял у пользователей чувство собственной правоты.
Исследователи также обнаружили, что особенно сильно эффект проявлялся у людей, которые в целом положительно относятся к искусственному интеллекту или считают его объективным источником оценки. Но даже у скептически настроенных участников главный эффект сохранялся.
При этом на результат почти не влияли ни дружелюбный или нейтральный тон бота, ни то, говорили ли участникам, что совет исходит от человека или от ИИ. По мнению ученых, сама одобрительная подача оказалась достаточно сильным фактором.
Авторы работы считают, что проблема связана не только с отдельными ошибками конкретных систем, но и с тем, как сегодня обучают большие языковые модели. Обычно их оптимизируют на то, чтобы давать приятные и убедительные ответы в отдельном диалоге, а не на долгосрочное, честное и ответственное взаимодействие.
По словам исследователей, чтобы уменьшить склонность ИИ к угодливости, придется пересматривать и методы обучения, и способы оценки моделей, и то, как такие системы подаются пользователю.
Ученые отмечают, что в прикладных сферах — науке, инженерии, медицине, бизнесе — пользователям в первую очередь нужны правильные ответы, а не поддержка их эго. Но и в повседневной жизни, как показало исследование, людям тоже не всегда полезно слышать от ИИ лишь подтверждение собственной позиции.
Результаты исследования опубликованы в журнале Science.
Как отмечается в статье, все больше людей обращаются к чат-ботам не только за справочной информацией, но и за советами в личных и социальных ситуациях. Чтобы понять, как такой формат влияет на поведение, ученые провели серию экспериментов с участием больших языковых моделей.
На первом этапе исследователи взяли описания межличностных конфликтов из популярных интернет-форумов, где пользователи обычно спрашивают, правы ли они в той или иной ситуации. Эти тексты затем передали 11 крупным языковым моделям, включая системы компаний OpenAI, Anthropic и Google, и сравнили ответы ИИ с оценками живых людей.
Оказалось, что люди поддерживали действия автора конфликта примерно в 40% случаев, тогда как большинство языковых моделей делали это более чем в 80% случаев. Иначе говоря, чат-боты значительно чаще вставали на сторону пользователя, чем реальные собеседники.
После этого ученые проверили, как такая «социальная лесть» влияет на самих людей. В одной серии экспериментов участники читали описание спорной жизненной ситуации и получали либо льстивый ответ от ИИ, либо более сдержанную и критичную реакцию. Затем они оценивали, насколько считают себя правыми, и писали сообщение второй стороне конфликта.
В другой серии опытов участники уже вживую обсуждали с ИИ собственную реальную межличностную проблему, причем чат-бот был заранее настроен либо на одобрительный, либо на более нейтральный стиль ответа.
Во всех таких экспериментах люди, общавшиеся с льстивым чат-ботом, чаще говорили, что именно они правы, и реже выражали готовность извиниться или попытаться загладить конфликт. Напротив, более сдержанный ИИ заметно слабее укреплял у пользователей чувство собственной правоты.
Исследователи также обнаружили, что особенно сильно эффект проявлялся у людей, которые в целом положительно относятся к искусственному интеллекту или считают его объективным источником оценки. Но даже у скептически настроенных участников главный эффект сохранялся.
При этом на результат почти не влияли ни дружелюбный или нейтральный тон бота, ни то, говорили ли участникам, что совет исходит от человека или от ИИ. По мнению ученых, сама одобрительная подача оказалась достаточно сильным фактором.
Авторы работы считают, что проблема связана не только с отдельными ошибками конкретных систем, но и с тем, как сегодня обучают большие языковые модели. Обычно их оптимизируют на то, чтобы давать приятные и убедительные ответы в отдельном диалоге, а не на долгосрочное, честное и ответственное взаимодействие.
По словам исследователей, чтобы уменьшить склонность ИИ к угодливости, придется пересматривать и методы обучения, и способы оценки моделей, и то, как такие системы подаются пользователю.
Ученые отмечают, что в прикладных сферах — науке, инженерии, медицине, бизнесе — пользователям в первую очередь нужны правильные ответы, а не поддержка их эго. Но и в повседневной жизни, как показало исследование, людям тоже не всегда полезно слышать от ИИ лишь подтверждение собственной позиции.
Результаты исследования опубликованы в журнале Science.