Ложь, наглая ложь и статистика в психологии
Каков процент подтасовки статистических данных в научных работах по психологии, какие ошибки выявила программа проверки и чем она похожа на Т9, выяснил Indicator.Ru.
Программы могут не только писать постмодернистские тексты песен, искать путь в Лондонском метро, моделировать процессы и работать в банке, но и искать ошибки в работах нечестных или невнимательных психологов. Indicator.Ru рассказывает, как компьютер выявляет неточности в научных работах и к чему это может привести.
Блеск и нищета современной психологии
Балансируя между «житейскими мудростями» и философско-метафизическими категориями на тоненькой ниточке непротиворечивых данных, «наука о душе» постоянно подвергается опасности перегибов. Копаться во внутреннем мире людей (если не рассматривать анатомическую сторону вопроса) никогда не было просто, поэтому исследования психологов с трудом поддаются верификации. Имея очень субъективный предмет изучения, психология некоторыми своими отраслями и разделами пересекается с медициной и нейробиологией, а другими выходит за грань научного: даже доктор психологических наук и заместитель директора Института психологии РАН Андрей Юревич определил место психологии между наукой и паранаукой. Даже примененные по всем правилам научной методологии, подходы психологии порой не дают удовлетворительных результатов. Если в более тщательной и долгой работе с одним человеком можно предположить уникальность случая и заявить, что экстраполировать выводы на всех людей нельзя, то в большой группе трудно понять, какое в действительности значение имеют для каждого участника исследования унифицированные вопросы и ответы. К тому же, у испытуемых всегда могут быть внутренние причины скрывать какую-либо информацию и отвечать на вопросы не до конца честно. Поэтому рефлексию (обращение внимания человека внутрь себя) нельзя считать инструментом, позволяющим добыть абсолютно достоверную информацию. Статья о компьютерном алгоритме, который выявил потенциальные ошибки в почти восьми тысячах психологических статей (и это только в период с 1985 по 2013 год и только в восьми научных психологических журналах) сработала как палка, разворошившая осиное гнездо, и без того неспокойное из-за постоянных споров. Под руководством Мишель Нюйтен было проанализировано 30 717 статей, из них 16 695 использовали статистические данные. В половине из этих работ была как минимум одна предполагаемая статистическая ошибка, на которую указала программа.
Когда исследование проводится на большой группе испытуемых, для обработки используются статистические методы. Популярное высказывание «существует три вида лжи: ложь, наглая ложь и статистика», авторство которого так туманно, что более ста лет назад Марк Твен приписал его Бенджамину Дизраэли (но уже не был уверен, откуда оно на самом деле пошло), не так уж далеко от истины. В области человеческого знания, где так сложно создавать теории, обладающие достоверной предсказательной силой (вспомните того же Зигмунда Фрейда или Альфреда Адлера), риск случайной ошибки и соблазн сознательной «подгонки» действительного результата под желаемый довольно высок.
Как компьютер «поймал с поличным» нечестных психологов
Программа, которая подтвердила справедливость этого ироничного наблюдения, называется Statcheck. Она анализирует P-значение (p-value) — величину, которую ученые используют для проверки статистических гипотез. Эта цифра показывает, насколько вероятен полученный результат, если нулевая гипотеза, лежащая в основе исследования, верна. В статье, которая была опубликована в журнале Behavior Research Methods, показано, что программа оценила достоверность более чем 258 000 p-значений (примерно 11 на каждую научную работу) за два часа, обнаружив, что 13% работ содержат ошибку, которая «переворачивает» полученные данные. В результате, например, P < 0,05 превращается в P = 0,05, или некоторые знаки после запятой просто отбрасываются, а не влияют на следующий знак по правилам округления чисел. Казалось бы, такое маленькое различие не должно серьезно влиять на результат, однако чаще всего P = 0,05 принимается как пограничное значение между статистически достоверным и недостоверным результатом. В итоге малейшее отклонение в одну или в другую сторону делает вывод в статье ложноположительным или ложноотрицательным.
Первоначально программа работала с литературой в целом, но один из соавторов исследования, Крис Хартгеринк, специалист по научной методологии из Тильбургского университета (Нидерланды), предложил сконцентрировать внимание на более специфических текстах — научных статьях. Он же позднее, в августе этого года, загрузил на проверку 50 000 статей и выложил результаты в Pub Peer (форум ученых, где они часто обсуждают вышедшие научные статьи), вызвав огромный резонанс в профессиональном сообществе. По мнению Хатгеринка, такие посты будут информировать авторов о возможных ошибках и «принесут науке гораздо больше пользы, чем просто свалка данных». С ним, как сообщает дискуссионная статья Монии Бейкер в Nature, согласны не все. Часть ученых, в том числе представители Немецкой психологической ассоциации, предупреждает, что ложноотрицательные результаты (здесь подразумевается исправление компьютером правильных данных на неправильные) могут скорее навредить репутации ученых, чем помочь развитию психологии как науки. Исполнительный директор Ассоциации психологических наук в Вашингтоне в ответ на публикацию заявил, что осуждает «повальное очернение» психологов в блогах и социальных медиа, явственно дав понять, что публикации результатов компьютерного анализа с указанием на возможные ошибки должны расцениваться как оскорбление.
Statcheck и P-value: кого в топку, кого в топ?
С другой стороны, подобные посты продвигают концепцию открытой науки (кстати, и Нюйтен, и Хартгеринк имеют награды от организаций, поощряющих развитие этого направления), которая позволит быстрее находить и корректировать статистические неточности. По мнению Ника Брауна, ученого-психолога из Университета Гронингема в Нидерландах, такие алгоритмы помогут только в том случае, если исследователи начнут читать их и оценивать с точки зрения специалистов, а не просто проникаться недоверием к журналу, опубликовавшему сомнительные статьи с ошибками.
На данный момент уже несколько тысяч человек, воодушевленных этой возможностью, бесплатно скачали эту программу, написанную на языке программирования R.
Однако Statcheck и сам может делать ошибки, как заявляет Томас Шмидт, критикуя программу. Например, она не всегда учитывает необходимые статистические погрешности и порой не может понять, что неверно в статье: P-значение или относительный параметр. Просканировав две статьи с большим количеством статистических данных, он обнаружил, что программа не смогла оценить 43 параметра, проверила 137 и определила 35 как «потенциально некорректные». Два из них оказались ошибками, не влияющими на результат, три были ошибками в других параметрах, не касающихся P-value, а остальные 30 оказались результатом «ложной тревоги».
Некоторые психологические журналы и вовсе начинают отказываться от p-value для проверки достоверности гипотез, считая этот параметр недостаточно надежным.
Сами создатели не отрицают, что их программа «никогда не будет столь же точна, как проверка вручную», но подчеркивают быстроту ее работы: если на проверку достоверности значения P-value одной средней психологической статьи уходит около десяти минут, то программа может справится с десятками тысяч в считанные часы, что незаменимо для проведения мета-анализа или первичной проверки присылаемых редакторам научных журналов статей. В этом качестве ее уже с июля этого года используют редакторы журнала Psychological Science. Они сравнивают эту программу с корректорами Word или T9, над нелепостью которых все смеются, но отказаться от них согласились бы немногие. Как и эти автокорректоры, Statcheck, по их мнению, можно считать «удобным инструментом, который иногда говорит глупости».