«Человек врет в двух измерениях»: о роли нейросетей в определении лжи
Как распознать безыскусное непрофессиональное вранье в повседневной жизни, по каким признакам компании могли бы отличать необоснованные требования компенсации от праведного гнева честных пользователей и чем в этом могут помочь коммуникативные деревья (и где они растут) — в материале Indicator.Ru.
На лингвистической конференции «Диалог» мы поговорили с Борисом Галицким и Диной Писаревской – разработчиками алгоритма, который благодаря анализу дискурса отличает правдивые жалобы клиентов банка от ложных. В первой части интервью мы обсудим суть самого метода, мышление среднестатистического вруна и применение методов анализа дискурса в отделах по работе с клиентами и в повседневной жизни.
Обывателю выдумывать очень сложно
– Честно говоря, когда я прочитала о программе для поиска ложных обращений клиентов в банк, я не поняла, зачем врать в этом случае. Можно, например, сделать ботов и оставлять ложные отзывы, хваля себя и ругая конкурентов. Но обманывать техподдержку…
Б. Г.: Фальшивые отзывы только бизнесу были бы выгодны, а тут люди врут, чтобы получить деньги. Им не важно, как будет дальше работать банк, их не заботит его репутация. Они просто требуют: «Дайте мне 100 долларов». Поэтому рецензии никому не интересны – пиши что хочешь, какая разница. Жалобы все любят анализировать, но у частных лиц нет достаточной мотивации их писать. А вот обращения в поддержку имеют вполне реальную цель.
Есть программы для распознавания отзывов, но ложные отзывы и делать нелегко. Вот напишите отрицательный отзыв на сыр в «Перекрестке», который вы не покупали. Ну сложно придумать, что с ним не так. А на десять таких сыров? У вас и вариантов не будет, если вы не профессионал. Даже люди, которым за это платят, однообразно будут писать: вкус такой, запах такой, плесень (причем не благородная), одни и те же фразы в самых разных комбинациях. Обывателю выдумывать очень сложно.
– Как программа определяет, какая жалоба достоверна, а какая — нет? По ключевым словам, эмоциональной нагрузке текста, как-то еще?
Д. П.: В современной компьютерной лингвистике в первую очередь используют особенности лексики (ключевые слова, эмоционально окрашенные, именованные сущности и так далее), синтаксиса (какой порядок слов в предложении) и семантики (значения слов). Но есть и более сложный уровень языка – уровень дискурса (очень упрощенно этот термин можно определить как «процессы речевой деятельности», – прим. Indicator.Ru). Он позволяет рассмотреть текст с точки зрения его связности: позиция предложений, связи между ними, их порядок, контекст и окружение. Это важно, когда мы анализируем не отдельные предложения, а текст в целом, хотим понять его логическое устройство. Ведь текст – это не просто линейная последовательность, когда клаузы (несущие смысл словосочетания, где главную роль играет глагол или элемент, играющий его роль, – прим. Indicator.Ru) объединяются в предложения, предложения в абзацы и так далее. Значение каждого конкретного предложения связано со значением предыдущего и следующего предложений. Мы работаем как раз на уровне отношений между фрагментами текста, его связности.
Мы анализируем дискурс, придерживаясь теории риторической структуры текста. Текст рассматривается как иерархическое дерево, его мелкие составляющие (клаузы) объединяются в более крупные, и все они связаны между собой определенными типами отношений, такими, например, как уточнение, уступка или причина. Эта теория была дополнена понятием коммуникативного дерева дискурса: глаголы помогают уточнить тип отношения. Один из соавторов, Борис Галицкий, разработал это понятие и отразил его в своих работах последних лет.
Соответственно, в качестве признаков для классификации мы берем только признаки деревьев дискурса – то, как выстроена структура текста.
Мы берем самый высокий уровень абстракции
– Как изучение коммуникативного дерева дискурса помогает определить правдивые и ложные высказывания?
Б. Г.: Под этим стоит несколько основополагающих теорий. В конце 1960-х была разработана теория речевых актов, а уже в 1980-е – теория речевых структур. Первая говорила: не важно, что мы обсуждаем, а важен тот факт, что вы спрашиваете, а я отвечаю. Почему-то в дискурсивном анализе она была не особо популярна. Теория речевых структур скорее лингвистико-психологическая, очень широкая и очень устоявшаяся. Для анализа нужно учитывать и организацию мышления вруна, и организацию передачи информации, как это происходит в диалоге.
Например, вы меня спрашиваете о профессии. По логике вранья я не просто скажу, что я космонавт, потому что всегда к этому стремился, а буду обосновывать сложными шаткими конструкциями: «Я стал космонавтом, потому что родители очень хотели, чтобы я полетел на Луну». Я атрибутирую, начинаю придумывать, добавлять ментальные состояния, коммуникативные уровни, оправдания и отсылки к словам других. Здесь две составляющих. Первое – организация нашего диалога: вы спросили – я ответил. Наш диалог относится к теории речевых актов, а обоснование, почему я космонавт – это дискурсивная часть. И оказалось, что каждая из теорий по отдельности не работает: человек врет в двух измерениях (речевые акты и риторика).
– Есть ли какие-то количественные признаки, по которым это можно определить с большой вероятностью? Например, у нас больше 20% глаголов в таком-то наклонении, и это значит…
Д. П.: Есть очень много разных признаков, по которым исследователи в разных странах для разных языков и в разных жанрах текстов пытались распознавать неправду. Очень популярным направление – forensic linguistics, когда это делают в судебных целях. Дискурсивные признаки менее изучены, хотя они хорошо работают для английского языка (как, например, показала статья 2015 года Виктории Рубин). Согласно моему небольшому пилотному исследованию, для русского тоже. У нас стояла чисто исследовательская задача, ведь дискурсивные признаки правдивых и ложных текстов на таком уровне стали изучаться только недавно. Модели можно основывать и на семантике, но пока что мы хотим обратить внимание коллег на дискурс.
Б. Г.: Более радикальный пример. Представим, что вы соберете информацию по рынкам, и окажется, что на бананах обвешивают в 20% случаев, а на яблоках в 30%. По тому, какой фрукт взвешивают, можно посчитать вероятность обмана. Можно, но не нужно! То, что мы покупаем бананы или яблоки, – это не причина того, что нас обвешивают. Причина в том, что нас хотят обмануть, получить больше денег, и весы подкрутили. Так и с дискурсом: признаков может быть миллион, и их поиск – подход, который очень популярен среди молодежи. Все хотят накидать как можно больше признаков, а дальше система сама разберется, что важно, а что нет. Мы специально от этого уходим, мы хотим посмотреть, что будет, если мы все уберем, кроме самой логики вранья. Суть лежит именно в дискурсе, а яблоки-бананы – это другой мир, и мы не хотим его рассматривать. Наша задача – не поучаствовать в соревновании, что какой-то признак на 2% увеличит надежность, а вскрыть механизм: каково же мышление человека, который врет?
Читайте также
Д. П.: Получается, что мы хотим посмотреть, насколько сама структура текста человека, который умышленно использует ложь, отличается от структуры достоверного текста. Как строятся причинно-следственные связи, как строится аргументация. И вот это нам позволяет выяснить анализ дискурса.
– Пример с бананами и яблоками напоминает саму концепцию машинного обучения и машинного перевода: программе не нужно понимать смысл слов, чтобы найти соответствия.
Б. Г.: Это в чем-то проще, потому что у людей разные языки, разные культуры, разные поводы, а логика одна и та же. А мы берем самый-самый высокий уровень абстракции: как же люди организуют мысли, по какой структуре их излагают (независимо от языковых средств), и о чем и как надо подумать, чтобы это понять.
«Мне были деньги очень нужны, а банк их не дал»
– Учитывается ли в вашем алгоритме только структура текста, или берется в расчет также информация о самих банковских услугах?
Д.П.: Датасет из 2746 жалоб, составленных клиентами банка, был нами взят из текстов, собранных на PlanetFeedback.com и датированных 2006–2010 годами. Здесь нам уже известна фактология, особенно что касается практик банков во время кризиса 2007 года. Сначала 400 текстов были размечены вручную, оставшиеся – автоматически с последующей ручной перепроверкой. Когда мы принимали решение о том, разметить жалобу как правдивую или как недостоверную, какой лейбл ей поставить, мы опирались именно на информацию о банковских услугах. Но на обучение классификатора она никак не влияла, там брались в расчет только признаки структуры текста.
– Получается, в жалобах любому производителю уже собрана огромная база, которую можно использовать для машинного обучения!
Б. Г.: Конечно! Если магазин или банк дал нам полмиллиона жалоб (мы сейчас делаем это для банка), сразу понятно будет, где обман. Они пишут, что «у меня не было денег, мне были деньги очень нужны, а банк их не дал», и все! Как только кому-то что-то очень нужно, и банк, конечно же, виноват, этот человек врет. А когда клиент подробно жалуется, перечисляя свои действия: я позвонил, мне сказали одно, я написал, а мне не ответили, – скорее всего, он не врет. Обычные люди с трудом изобретают сценарии.
– Потому что если человек скажет, что он звонил и писал, это же можно проверить.
Б. Г.: Да. Если эмоции преобладают, фактов нет, «они такие плохие, они вообще всех обманывают», то и доказательств, скорее всего, нет. Это противоположный вариант натренированному вруну (о котором речь пойдет во второй части интервью, – прим. Indicator.Ru). Бизнесмены теряют огромное количество денег, компенсируя жалобы всем подряд.
«Система достаточно надежная, когда работает вместе с человеком»
– А какова вероятность ошибки вашего алгоритма?
Д. П.: Алгоритм прав более чем в 80% случаев. Если алгоритм нашел некоторое количество текстов с ложью от одного автора, эта информация проверяется вручную. Так что система достаточно надежная, когда работает вместе с человеком.
– Возможно ли увеличить точность оценки, если кроме текста задать в алгоритм дополнительные параметры? Осуществимо ли это?
Б. Г.: Наша исследовательская задача заключалась в том, чтобы оценить роль дискурсивных признаков в автоматическом распознавании достоверности текстов. Обычно state-of-the-art подходы в этой сфере опираются, если говорить про признаки текстов, на лексические, стилистические и синтаксические признаки. Другие признаки характеризуют поведение пользователей: как часто они оставляют отзывы или комментарии, не противоречит ли их содержание друг другу. Сетевые признаки позволяют посмотреть, как распространяется информация в Интернете, где ее источник. Сложные модели на основе нейросетей работают с различными комбинациями признаков. Тема распознавания достоверности новостей стала очень актуальной по всему миру начиная с 2016 года (президентские выборы в США), а распознавание достоверности интернет-отзывов – важная задача e-commerce.
Поэтому автоматическим распознаванием достоверности текстов занимаются и научные коллективы, и коммерческие организации, и некоммерческие объединения. Сделано уже очень много. Но дискурсивные признаки почти не затрагивались, и мы поставили себе задачу исследовать именно их. В дальнейшем их можно объединить с другими признаками. В 2017 году одна из соавторов, Дина Писаревская, сделала пилотное исследование, представленное на воркшопе конференции EMNLP, в нем для русского языка на небольшом датасете фейковых и достоверных новостей рассматривался вклад лексических, принадлежащих частям речи и дискурсивных признаков в задаче распознавания достоверности текста. Было бы интересно продолжить эту работу.
– Этот алгоритм уже используется в компаниях?
Б. Г.: Мы оформляем патенты, но реально продавать свои разработки тяжело. В компаниях из сферы услуг бывает очень сложная иерархия, отделы по работе с клиентами, большой бюрократический аппарат. У каждого отдела свой бюджет, и у работающих с клиентами, бывает, нет механизма, позволяющего купить эту систему, даже когда есть деньги. Но это скорее проблемы менеджмента, организации компании.
Продолжение следует
Понравился материал? Добавьте Indicator.Ru в «Мои источники» Яндекс.Новостей и читайте нас чаще.
Подписывайтесь на Indicator.Ru в соцсетях: Facebook, ВКонтакте, Twitter, Telegram, Одноклассники.