Экономисты научились прогнозировать рождаемость по поисковым запросам
Повышение рождаемости и поддержка семьи остаются одними из приоритетов государства. Прогнозирование рождаемости позволяет рассчитать необходимое количество детских садов, школ, обеспечить людей инфраструктурой, предсказать состояние рынка труда и долгосрочные социальные расходы.
Сотрудники факультета экономических наук НИУ ВШЭ Лилия Родионова и Елена Копнова вместе с аспирантами Никитой Родионовым и Светланой Камелендиновой использовали поисковые запросы в качестве одного из предикторов рождаемости.
По мнению авторов, изучение поведения пользователей в интернете, в частности анализ цифровых поисковых запросов, может выступать значимым источником данных и одним из предикторов демографических процессов, включая рождаемость.

Результаты исследования опубликованы в журнале Populations and Economics.
Главные мысли за 1 минуту:
- Экономисты НИУ ВШЭ построили модель прогноза рождаемости, используя поисковые запросы Google Trends как дополнительный индикатор.
- Добавление поисковых данных снижает среднюю ошибку прогноза на год с 4,62% до 3,2% — это около 3,2 тыс. ошибок на 100 тыс. рождений.
- Самый эффективный блок запросов — «Подготовка к родам» (например, «сумка в роддом»). Он дает точный краткосрочный сигнал.
- На горизонте 2–3 года ошибка модели падает до 2,7% и 2,6% соответственно, даже с учетом кризисных периодов (пандемия, геополитическая нестабильность).
- Исследование доказывает, что цифровые следы пользователей — надежный источник для прогнозирования демографических процессов.
Как построили модель
Ученые проанализировали ежемесячные данные Росстата о числе родившихся в России с 2011 по 2024 год. Эту статистику сопоставили с динамикой поисковых запросов Google Trends, которая демонстрирует относительное изменение поискового интереса к тематике запросов.
Наибольшее число поисков за определенный период времени поисковая система принимает за 100 пунктов и показывает, как менялась популярность запроса относительно этого максимума.
Для исследования авторы собрали корпус из 56 слов, которые с помощью методов машинного обучения разделили на четыре смысловых блока: планирование беременности, течение беременности, подготовка к родам и универсальные запросы.
Для анализа использовалась модель SARIMA, которая учитывает динамику рождений вне зависимости от сезонности.
Какой блок запросов оказался самым точным
На горизонте один год стандартная модель показала среднюю ошибку прогноза 4,62%, что в абсолютных числах составило около 4,6 тысячи на 100 тысяч рождений. Добавление поисковых данных в модель снизило ошибку с 4,62 до 3,2%.
Наиболее эффективным блоком запросов оказался «Подготовка к родам». Можно предположить, что такие запросы, как «роддом», «сумка в роддом», чаще совершают женщины, которые уже знают о своей беременности и активно готовятся к предстоящим родам.
Это делает их четким и надежным предиктором для краткосрочного прогноза, — объясняет доцент факультета экономических наук НИУ ВШЭ Лилия Родионова.
При этом наиболее сильный эффект был заметен после учета временного фактора (лагов) в поисковых запросах. По предположению авторов, пользователи обычно ищут материалы о течении беременности заранее.
А поиск по запросам «сумка в роддом» или «дыхание при родах», наоборот, осуществляется незадолго до поездки в больницу.
Эти запросы указывают также на близость рождения ребенка. Так, блок «планирование беременности» находит отражение в модели через 7,4 месяца, а блок «подготовка к родам» — уже через шесть.
Долгосрочные прогнозы и устойчивость к кризисам
При увеличении срока прогнозирования лучше всего себя показала модель с использованием всех блоков запросов и временных интервалов. При горизонте два года ошибка снизилась до 2,7%, а три года — до 2,6%.
Модель тестировалась на данных за период до декабря 2024 года, который включал в себя и пандемию COVID-19, и начало геополитической нестабильности.
Высокая точность прогнозов на контрольном периоде, который включал кризисные годы, свидетельствует о высоком потенциале модели, — говорит Лилия Родионова.