Большие данные для Большого Брата: как за нами следят при помощи социальных сетей
Правда ли, что Дональд Трамп победил на выборах, используя технологию анализа больших данных, какие данные о пользователях собирают социальные сети и можно ли следить за владельцами сотовых телефонов, выяснял Indicator.Ru.
19 декабря коллегия выборщиков примет окончательное решение о том, кто станет 45-м президентом США. Во время первого этапа, 8 ноября, когда голосовали граждане США, победу одержал республиканец Дональд Трамп. Такой исход выборов для многих людей во всем мире стал большой неожиданностью. Позднее швейцарский журнал Das Magazin опубликовал расследование польского ученого Михаила Козинского о том, что занять лидерские позиции Трампу помогли технологии анализа больших данных и психологический микротаргетинг в социальных сетях. Резонансную статью сначала назвали «публикацией года», а затем и «уткой года». В интервью корреспонденту Indicator.Ru Петр Ромов, специалист по анализу данных, преподаватель факультета компьютерных наук НИУ ВШЭ рассказал о микротаргетинге и сборе данных в России.
— Какая реакция была у вас, как у специалиста, на эту публикацию? Стоит ли доверять изложенной Das Magazin информации и серьезно к ней относиться?
— Обычная статья, не вызвала никакой реакции.
Описанные в статье технологии не являются чем-то новым, они довольно продолжительное время используются для задач маркетинга. Так, например, технология Крипта, позволяющая Яндексу по поведению пользователя в интернете оценивать его пол, возрастную категорию, уровень достатка и многие другие персональные характеристики, была запущена еще в 2011 году. Рекламодатели, в свою очередь, для продвижения своих товаров и услуг, как правило, делают набор рекламных банеров, каждый из которых ориентирован на определенный тип личности.
Продвижение кандидатуры президента технически ничем не отличается от продвижения товаров и услуг, кроме того, что на кону политический курс большой страны и объем вложений в подобную маркетинговую кампанию может быть во много раз выше.
— Что вы можете сказать о Михаиле Козинском как об ученом? Насколько высок его авторитет в научной среде?
— Судя по его открытому профилю в Google Scholar (система поиска и мониторинга научных публикаций), Козинский является продуктивным ученым в своей области, имеет достаточно большой индекс цитирования, в соавторстве со своими коллегами по цеху написал внушительное число научных публикаций.
Я представляю область компьютерных наук и мне трудно судить о том, насколько большим авторитетом среди коллег в области психометрии пользовался Козинский на момент публикации статьи в Das Magazin. Если сравнивать его научные показатели с авторитетными профессорами из моей области, то эти показатели не выглядят очень высокими.
Если говорить о вкладе Козинского в проблему, то, на мой взгляд, он здесь очень мал. Суть проблемы не в применении метода OCEAN, а в проведении кампании с использованием современных технологий и доступной информации. Прикладная наука предлагает огромное множество инструментов для решения похожих задач, одни методы более популярны, другие — менее популярны, но лучше работают в специфичных задачах. Это эдакие молотки из разного материала, разной формы. Достижение заключается не в изобретении Козинским молотка, а в том что нашелся человек, который взял один из молотков и забил торчащий гвоздь.
— Что известно о психологическом микротаргетинге в России не в целях маркетинга?
— Известно, например, что политическая реклама в ряде рекламных сетей, в том числе рекламной сети Яндекса, реклама на страницах VK.ru, приравнена к азартным играм и наркотикам, не допускается для продвижения с использованием таргетинговой технологии.
Что касается постов, не являющихся рекламой, то никто не может запретить пользователю высказать свое мнение о проблеме, даже если она носит политический характер. Рекомендательные системы, которые формируют ленту интересных сообщений для пользователя преследуют цель максимизировать вовлеченность пользователя в чтение ленты (именно вовлеченность коррелирует с выручкой социальной сети от показов рекламы). Если человек ставит лайк или переходит по ссылке в общедоступном посте, значит (с точки зрения рекомендательной системы), ему нравится эта информация, и схожим по социальному профилю людям необходимо показать аналогичную информацию.
Изменить цель рекомендательной системы таким образом, чтобы она «поднимала» в лентах целевой группы пользователей частные мнения по политическому вопросу, возможно с технической точки зрения. Использовалось ли это в России, мне неизвестно, убедительных свидетельств и исследований, доказывающих подобное использование рекомендательной системы по воле компании, я не видел.
— Как вы думаете, смогут ли люди отказаться от использования смартфонов и/или социальных сетей в случае, если вся информация действительно собирается?
— Информация собирается. Записывается все, что имеет или может потенциально иметь коммерческую ценность. В связи с законопроектом Яровой, возможно, будет записываться еще больше и в обязательном порядке.
Рекомендательные системы — это необходимость, они позволяют человеку ориентироваться в переполненном информацией интернете. Чем доступнее будет информация, тем лучше будет осведомленность людей, тем качественнее в среднем будет принимаемое ими решение. Настоящая проблема кроется в том, что часть донесенной информации может оказаться ложной. Эта тема не была упомянута в статье, хотя именно она, на мой взгляд, стоит глубокого обсуждения и исследований. Из недавних продвижений в этом направлении можно упомянуть факт-чек теги в ленте Google News.
— Расскажите, пожалуйста, немного подробнее, почему часть информации может оказаться ложной?
— Человек, пользуясь телефоном, интернетом, электронными турникетами и другими технологиями, оставляет на серверах разных компаний электронный след. Это и называется та самая биг дата. По этому электронному следу при помощи математических методов можно с определенной точностью определить социально-демографический портрет человека, его возможные интересы, политические предпочтения и другие характеристики. Именно с определенной точностью, совершенно точно про каждого человека что-либо узнать из электронного следа существующие технологии не позволяют.
Проблематика статьи из Das Magazin заключается в том, как возможность с некоторой точностью определить портрет пользователя используется.
Уже много времени эти технологии используются для таргетинга рекламы, а также в рекомендательных системах (пример: лента постов в фейсбуке). В рамках предвыборной кампании Трампа, при помощи этих технологий, до конкретных людей целенаправленно доносили определенные новостные статьи, видеоролики или просто беседовали на ту тему, которая могла бы вызвать наибольшее внимание.
Читайте также
Если говорить о беседах и психологических приемах убеждения, которым (предположительно) подвергали людей, то здесь мои комментарии неуместны, я не психолог. Я же имел в виду посты, видеоролики, новости, которые распространяются в социальных сетях по цепочкам репостов, друзей, эффективно доходят до целевой аудитории при помощи рекомендательных систем. Люди в итоге читают ленту в фейсбуке без разбора, где факты верны, а где нет. Что им рекомендательная система преподнесла, то и читают. Вот здесь есть уязвимость в том, что кто-то может целенаправленно посеять ложную информацию, а рекомендательная система ее быстро и эффективно распространит.
— Подтверждается ли научно правило «отсутствие данных — это тоже данные»? Можно ли получить информацию о человеке, который не является пользователем социальных сетей, косвенными путями?
— Отсутствие данных может нести в себе полезную информацию. Если человек не пользуется ни одной социальной сетью, то он вероятнее является пенсионером или проживает в месте без постоянного подключения к интернету, чем тот, кто пользуется социальными сетями.
Есть еще один гигантский источник данных, который при правильном использовании покроет все, — операторы сотовой связи. Если люди, не пользующиеся социальными сетями, встречаются в современном мире достаточно часто, то представить себе дееспособного гражданина без мобильного телефона (пусть даже не смартфона) очень сложно.
Кроме того, что операторы сотовой связи пропускают через себя значительную часть интернет трафика (а это посещения всех страниц, в том числе социальных сетей), они могут определять местоположение абонента и использовать его в тех же задачах маркетинга, у них есть ваши паспортные данные. И это уже не говоря о том, что телекомы владеют одними из самых важных каналов общения — голосовыми звонками и смс-сообщениями.