Макроэкономическое прогнозирование с использованием данных социальных сетей

Аннотация

В настоящей работе мы строим ряд индексов экономических настроений для России на основе новостных постов и комментариев к ним из российской социальной сети «ВКонтакте». Тексты из социальной сети подвергаются обработке, и для выделения новостных постов экономической тематики применяется алгоритм семплирования Гиббса для Дирихле-мультиномиального распределения (Gibbs Sampling for the Dirichlet Multinomial Mixture, GSDMM). Чтобы проверить, действительно ли полученные индексы могут описывать настроения потребителей и бизнеса, мы сравниваем их с существующими индексами: индексом потребительских настроений и индексами менеджеров по закупкам PMI для секторов производства и услуг в России. Мы используем построенные индексы для прогнозирования при помощи методов машинного обучения (алгоритмов случайного леса, сверхслучайных деревьев, градиентного бустинга, XGBoost) макроэкономических показателей для России. При сравнении среднеквадратичных ошибок моделей машинного обучения и ошибок авторегрессии первого порядка почти во всех случаях ошибки моделей машинного обучения оказались меньше.