Математика и Computer Science

«Эту технологию надо пересобирать»: в чем ошибались прогнозы выборов в США

Как делаются прогнозы выборов и почему они оказались неверны

© clinton.senate.gov

Выборы в США завершились победой Дональда Трампа. Почему ошибались прогнозы, предсказывавшие победу Хиллари Клинтон, как они составляются, насколько подобные прогнозы надежны и зачем нужны, разбирался Indicator.Ru

Выборы в США завершились победой Дональда Трампа. Почему ошибались прогнозы, предсказывавшие победу Хиллари Клинтон, как они составляются, насколько подобные прогнозы надежны и зачем нужны, разбирался Indicator.Ru.

В странах, где результаты президентских или парламентских выборов не очевидны за несколько лет и имеют хоть какое-то значение, не только аналитические агентства, но и крупные СМИ готовят свои прогнозы. Их основу составляют опросы общественного мнения, дополнительными факторами являются экономические индексы и результаты прошлых голосований. На основе того, насколько учитываются эти дополнительные факторы, портал FiveThirtyEight, специализирующийся на анализе опросов общественного мнения, выделил две модели построения прогнозов: Polls-only и Polls-plus.

Составление прогноза включает четыре стадии: сбор и обработку данных, их корректировку, объединение с демографическими и (в случае Polls-plus) экономическими факторами, учет голосов неопределившихся и моделирование результатов.

На первом этапе социологи собирают данные опросов, стараясь исключить предвзятые и проведенные недобросовестно исследования.

Корректировка данных необходима, чтобы учесть разницу между опрашиваемой частью населения, которая имеет право участвовать в голосовании, и теми людьми, которые пойдут на избирательные участки. Еще одно направление для обработки результатов — учет изменения рейтингов во времени. Здесь авторам прогноза необходимо определиться с тем, как сильно сглаживать колебания показателей, чтобы сбалансировать влияние кратко- и долгосрочных факторов.

Следующий этап подразумевает включение в анализ демографических и экономических показателей. Этим обозначается переход от обработки входных данных к прогнозированию результатов голосования. В случае выборов в США к этому этапу относится учет голосов, отданных за «третью» партию. Как показывает опыт проведения опросов, на ранних этапах предвыборной гонки некоторая часть опрашиваемых заявляет о симпатии какой-либо «третьей» партии, хотя на самом деле эти люди просто пока не определились с выбором и позднее присоединятся к сторонникам демократов или республиканцев. Также необходимо определиться с методом распределения голосов неопределившихся: поровну между основными кандидатами или пропорционально. Экономические факторы учитываются с помощью таких показателей, как занятость в несельскохозяйственной сфере, объем промышленного производства, доходы населения, потребительские расходы, инфляция и положение на фондовом рынке.

Наконец, наступает этап моделирования выборов. При этом учитываются случайные отклонения, возможные как на уровне штата, так и в масштабе страны. Однако все эти усилия не помогли предсказать победу Трампа. На протяжении полугода опросы и прогнозы показывали, что следующим президентом США станет Клинтон.

Не умеешь сам — научи машину

Несколько лет назад к прогнозам подключили и искусственный интеллект. Созданная в 2004 году система MogAI, верно предсказавшая результаты последних трех выборов, не ошиблась и в этот раз. Для прогнозирования поведения избирателей система анализирует информацию из открытых площадок: Facebook, Twitter, Google. Система оценивает степень внимания, которое уделяется каждому из кандидатов. Данные за прошедшие выборы подтверждают, что политики, привлекавшие больше всего внимания, побеждали в предвыборной гонке. Однако данные, основанные на информации из социальных сетей, трудно анализировать. Система может заметить увлеченность человека тем или иным кандидатом, однако оценить его отношение к политику намного сложнее. Для этого приходится создавать алгоритмы, анализирующие, например, связь между несколькими поисковым запросами одного человека.

«Это системная проблема»

Абсолютное большинство прогнозов предсказывало победу Клинтон. И все они оказались ошибочными. Единичная ли это ошибка или следствие методологических проблем? На какой стадии допускаются ошибки — во время сбора информации (опросов) или их обработки и составления прогнозов? Есть ли альтернатива использованию результатов опросов? На эти вопросы Indicator.Ru ответил профессор Московской высшей школы социальных и экономических наук Григорий Юдин.

По мнению эксперта, несовпадение результатов опросов и последующих выборов — это системная проблема. «Это происходило уже в ходе первичных выборов в США несколько раз в разных штатах, в ходе европейских выборов, например известная ситуация с Brexitом. То есть это не локальная ситуация, которая может быть списана на технические ошибки. Реально это означает, что эту технологию надо пересобирать».

По мнению эксперта, определенные проблемы возникали уже на стадии опросов: они не отражают тот электорат, который приходит на выборы. Кроме того, сложился «эффект социальной желательности»: респонденты чувствовали, что общество одобряет выбор в пользу Клинтон, а «голосование за Трампа клеймилось, как что-то неприличное». Также широко обсуждается проблема разработки прогнозов на основе опросов. Для этого применяются коэффициенты, полученные из сравнения прошлых выборов с подготовленными к ним прогнозами. Однако если результаты выборов были сфальсифицированы, то вносимая поправка будет давать неверный результат. Часть проблем связана и с кризисом современной демократии, с тем, что «люди все меньше склонны принимать участие в демократических процедурах, а опросы они воспринимают как одну из таких процедур».

Существует мнение, что данные о генеральной совокупности (всех гражданах страны, а не только участвовавших в опросах) можно будет в недалеком будущем собрать с помощью социальных сетей. «Я не хотел бы жить в таком мире, в котором каждый человек может быть изучен без его желания, где можно собрать индивидуальную информацию о каждом», — отмечает эксперт.

По словам Юдина, для социологов было очень важно предсказать результаты этих выборов. «Есть подозрение, что те данные, которые давали опросы перед выборами, повлияли на их результаты. Это демобилизовало электорат Клинтон. За нее и так люди не очень хотели голосовать, а когда поняли, что она и так побеждает, решили остаться дома».

«Что касается России, я бы приветствовал, если бы опросные компании начали публиковать свои коэффициенты ответов, уровень достижимости — какой процент людей, попадающих к ним в выборку, соглашаются отвечать на их вопросы», — замечает социолог. Это позволяет представить, какую часть электората они охватили.

«Я не думаю, что это так существенно, так важно — порождать точные прогнозы. Я не думаю, что это стоящая научная задача. Гораздо более важно, чтобы само по себе знание, которое эти опросы производят, служило каким-то демократическим целям», — подытожил Юдин.