Крупнейшие технологические компании мира оказались перед лицом неожиданной проблемы, способной перечеркнуть все достижения в области искусственного интеллекта.
Специалисты Microsoft Research и Salesforce провели масштабный анализ более 200 тысяч диалогов с передовыми нейросетями и пришли к пугающим выводам, сообщает корреспондент Белновости со ссылкой на ixbt.
Оказалось, что такие гиганты, как GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1 и Llama 4, демонстрируют впечатляющие 90 процентов точных ответов при обработке отдельных запросов. Однако стоит разговору перейти в формат естественного многоходового диалога, как производительность моделей падает до 65 процентов.

Для обычного пользователя это выглядит как постепенная интеллектуальная деградация собеседника, сопровождающееся галлюцинациями и откровенно неверными ответами. Ученые выяснили, что нейросети склонны использовать свой первоначальный ответ в качестве основы для последующих реплик, даже если он был ошибочным.
Еще более тревожным оказалось явление, которое исследователи назвали раздуванием ответов. При участии в длительных диалогах реакции моделей становились длиннее на 20-300 процентов, что приводило к появлению множества предположений и иллюзий.
Эти ложные данные затем использовались нейросетями в качестве постоянного контекста, усугубляя ситуацию с каждым новым обменом репликами. Даже модели с дополнительными токенами мышления, такие как o3 от OpenAI и DeepSeek R1, не смогли выбраться из этой странной ловушки.
Исследователи подчеркнули, что надежность языковых моделей снизилась на 112 процентов из-за склонности к преждевременной генерации ответов. Нейросети пытаются предложить решение, не дочитав запрос до конца, что приводит к накоплению ошибок.
Становится очевидным, что искусственный интеллект еще не достиг своего пика, столкнувшись с критическими проблемами при многоходовых диалогах. Отношение пользователей к ИИ-сервисам быстро меняется, особенно с появлением таких инструментов, как обзоры Google на основе нейросетей.
Эксперты предупреждают, что отказ от традиционных поисковых систем в пользу инструментов на основе искусственного интеллекта — это большой риск. Генерируемая информация может оказаться недостоверной, особенно при сложных запросах, требующих многоэтапного обсуждения.
Некоторое время назад Microsoft уже обвиняла пользователей в неправильном использовании ИИ, ссылаясь на низкий уровень инженерных навыков при разработке подсказок. Парадокс в том, что чем дольше человек общается с ботом, пытаясь получить качественный ответ, тем быстрее модель деградирует.











