Миллионы ошибок в час: почему ИИ-поисковик Google AI Overviews генерирует некорректные ответы
Исследование, проведённое журналистами The New York Times совместно со стартапом Oumi, показало, что функция «Режим ИИ» (AI Overviews) в поисковой системе Google может допускать миллионы ошибок ежедневно из-за огромного масштаба поискового трафика. При общей точности около 90 процентов даже небольшой процент некорректных ответов трансформируется в десятки миллионов ошибочных результатов в час.
Об этом сообщает The New York Times со ссылкой на результаты тестирования, опубликованные 9 апреля 2026 года.
Работающий на базе ИИ Gemini инструмент оценивали с помощью бенчмарка SimpleQA от OpenAI, включающего более 4 тысяч вопросов с проверяемыми ответами, а также собственных инструментов анализа Oumi.

При использовании модели Gemini 2.5 точность составляла около 85 процентов, а после перехода на Gemini 3 показатель вырос до 91 процента.
В ходе исследования были выявлены случаи некорректной агрегации информации из источников.
В одном из примеров система неверно определила дату преобразования дома Боба Марли в музей, несмотря на наличие корректных данных в первоисточниках.
Это указывает на проблемы с интерпретацией и выбором фактов, а не на отсутствие информации в сети.
В Google оспорили выводы исследования.
Представитель компании Нед Адрианс заявил, что используемый бенчмарк SimpleQA может содержать ошибки и не отражает реальные пользовательские сценарии.
По его словам, более релевантной метрикой является тест SimpleQA Verified с меньшим, но тщательно проверенным набором вопросов.
Кроме того, в компании считают, что методология исследования не учитывает специфику реальных поисковых запросов.