«Экселевский ад»: автокоррект в эпоху больших данных
Большие данные — большие проблемы
Большие данные проникли в самые разные области исследований. Еще в 2012 году ученые отмечали, что модели, на обработку которых десять лет назад потребовался бы год, сейчас обрабатываются за тридцать секунд. Но несмотря на огромный прогресс, иногда компьютеры представляют настоящую угрозу для человечества.
Нет, восстания машин в ближайшее время не предвидится. Проблема приходит с неожиданной стороны: программное обеспечение становится все самоувереннее в своих исправлениях. Пока кого-то забавляет, что автокоррект в Apple способен написать тезисы на конференцию по физике частиц (которые, как доказал профессор из Новой Зеландии, примут организаторы), грамотеи по всему миру переживают, что, полагаясь на автоматическое исправление ошибок, мы становимся ленивее и глупее.
© Как написать тезисы на International Conference on Atomic and Nuclear Physics автоподбором
Тем временем ученые жалуются на жизнь в «экселевском аду». Excel со своими таблицами и диаграммами стал незаменимым инструментом, превращаясь (с некоторыми дополнениями) в платформу для анализа данных с возможностями машинного обучения. Хотя когда-то он и был создан на примитивном языке BASIC, популярном в шестидесятые, используется он очень широко, особенно среди «не слишком грамотных в цифровых технологиях и вычислениях» людей. В программе можно писать скрипты на Python, и в целом она довольно удобна для редактирования данных (пусть и не слишком «больших данных») в 2D. Но многофункциональность и простой интерфейс — то, что нужно, чтобы втереться в доверие и натворить бед, если эти качества сопровождает настойчивость в исправлениях.
Ошибки в Excel и экономический кризис
Десять лет назад два экономиста из Гарвардского университета, Кармен Райнхарт и Кеннет Рогов, обнаружили, что госдолг США превысил 90% ВВП и уничтожил экономический рост. Чтобы компенсировать эту проблему после Великой рецессии (кризиса 2008 года) политики разных стран приняли решения урезать расходы, в результате чего миллионы образованных людей остались без работы. Правда, вскоре профессор и его студент из Мичиганского университета указали на их ошибки, что затем подтвердили другие ученые из Массачусетского университета. В итоге выяснилось, что долги вызваны замедленным экономическим ростом, а не наоборот. Оказалось, что ошибка в Excel-таблицах привела к неправильному анализу данных После корректировки заявленный изначально эффект просто исчез.
Во время того же кризиса один из крупнейших банковских конгломератов в мире, британский Barclays, пострадал, заключив с Lehman Brothers 179 контрактов, которые должны были быть удалены. Произошло это из-за ошибки двух молодых юристов, которые попытались стереть колонки из таблицы Excel. Но ненужные контракты просто скрылись, и при конвертировании в pdf-формат были распечатаны. Потери от этой истории банк предпочел скрыть (что, впрочем, и неудивительно).
Огромная канадская энергетическая компания TransAlta также пала жертвой коварства Excel: сотрудников подвела функция копирования в буфер обмена и вставки. Из-за ошибки и недосмотра компания потеряла 24 миллиона долларов по американскому контракту в мае 2003 года. Еще больше не повезло американскому холдингу JP Morgan: он лишился шести миллиардов долларов из-за сходной проблемы, потому что неверно были вставлены данные для расчета модели стоимости под риском. И снова аналитиков подвели компьютерные таблицы.
«Скрепыш умер и преследует нас как полтергейст»
Из-за подобных ошибок страдают не только работающие с числами аналитики, математики или экономисты. В других науках (в том числе и науках о жизни) автоисправления таблиц создают не меньше проблем. Так, в 2016 году исследователи подсчитали, что каждая пятая работа по генетике содержит ошибки из-за своевольной программы Excel.
«Проблема очевидна: не вмешивайтесь в генетику, иначе получится Парк юрского периода», — жалуются пользователи. «Неосторожные сокращения названий генов ведут к проблемам. […] Отключить автоматические изменения в MS Excel невозможно», — вторят им коллеги, проанализировавшие 18 научных журналов по генетике в поисках ошибок. В 3597 статьях, опубликованных с 2005 по 2015 год и содержащих 7467 экселевских файлов со списками генов в приложениях, они нашли погрешности в 987 работах, что привело к 10 ложноположительным результатам.
Журнал | Количество отсканированных файлов Excel | Количество файлов со списками генов | Количество статей со списками генов | Количество затронутых приложений к статьям | Количество затронутых статей | Количество переименованных генов |
---|---|---|---|---|---|---|
PLoS One | 7783 | 2202 | 994 | 220 | 170 | 4240 |
BMC Genomics | 11464 | 1650 | 801 | 218 | 158 | 4932 |
Genome Res | 2607 | 580 | 251 | 114 | 68 | 3180 |
Nucleic Acids Res | 2117 | 540 | 315 | 88 | 67 | 1661 |
Genome Biol | 2678 | 664 | 257 | 97 | 63 | 1878 |
Genes Dev | 932 | 395 | 190 | 75 | 55 | 1593 |
Hum Mol Genet | 980 | 372 | 168 | 48 | 27 | 1724 |
Nature | 482 | 150 | 74 | 27 | 23 | 1375 |
BMC Bioinformatics | 1790 | 235 | 152 | 26 | 21 | 534 |
RNA | 569 | 127 | 77 | 20 | 15 | 1341 |
Nat Genet | 264 | 70 | 37 | 12 | 9 | 178 |
Bioinformatics | 731 | 112 | 67 | 11 | 6 | 339 |
PLoS Comput Biol | 177 | 79 | 32 | 6 | 6 | 46 |
PLoS Biol | 143 | 54 | 29 | 7 | 5 | 206 |
Mol Biol Evol | 995 | 112 | 79 | 7 | 4 | 56 |
Science | 172 | 36 | 19 | 7 | 3 | 451 |
Genome Biol Evol | 490 | 32 | 25 | 2 | 2 | 121 |
DNA Res | 801 | 57 | 30 | 2 | 2 | 6 |
Итого | 35175 | 7467 | 3597 | 987 | 704 | 23861 |
Пока кто-то переходит на Google-таблицы и скрупулезно переформатирует столбцы, остальные публикуют научные статьи с неверными данными: SEPT2 (септин-2) превращается во второе сентября, выражение 2310009E13 становится 2.31E+13, четырнадцатизначные пароли для IT превращаются в 5.42342E14, а комбинации цифр и букв подсчитываются как формулы. Электронная карта здоровья (electronic health record, или EHR) в базах данных медиков так часто превращается в HER («ее»), что сайт по медицинскому учету даже написал отдельную инструкцию по ручному исправлению этой проблемы в Microsoft 2010.
«Я даже не говорю о телефонных номерах в международном формате, начинающихся со знака плюс. Excel видит их как формулу. Скрепыш умер и вернулся преследовать нас как табличный полтергейст», — возмущаются другие комментаторы.
Ученые наносят ответный удар
Что можно сделать с самопроизвольно исправляющимися таблицами? Автоматически помешать Excel превращать числа в даты, когда ему это кажется необходимым, невозможно: придется вручную ставить апострофы перед числами, пробелы (или нули, если числа написаны через слэш). Можно также выделять нужные строчки, но это опять же не вариант для исправления огромных многостраничных документов. При новых настройках это можно изменить для отдельных столбцов, но такие настройки, если не сохранять их отдельно, могут сбиться при неправильном открытии или конвертировании пересланных документов. А избежать этого тоже не удастся: ученые делятся данными и сотрудничают с коллегами со всего мира, и поручиться за каждую загрузку и переформатирование нельзя. Есть множество «трюков», быстрых команд и сочетаний клавиш, которые помогают исправить ситуацию, как Ctrl Z в Microsoft Word, исправляющий предыдущую корректировку. Но, к сожалению, это вновь работа вручную, которая не подходит для больших массивов информации.
Генетики сдались в этой борьбе и сделали ход конем: они переименовали 27 генов, которые похожи на даты. Представители Комитета по номенклатуре генов сочли, что проще, к примеру, называть MARCH1 (что расшифровывается как Membrane Associated Ring-CH-Type Finger 1) MARCHF1, а SEPT1 превратить в SEPTIN1, чем дождаться обновлений от Microsoft Excel, исправляющих проблему, которая их «очень, очень раздражает». Ученых можно понять: их жалобы за пятнадцать лет не привели к изменению ситуации. Но логично и поведение компании: зачем прикладывать такие усилия, если вы почти монополист на рынке? Аудиторию это точно не расширит.
Более того, генетики переписали руководства для присвоения названий новым открытым генам. Если раньше приходилось учитывать, что связанные с ними наследственные заболевания могут достаться и человеку, а потому порывы энтузиазма нужно сдерживать, чтобы названия не звучали неэтично (хотя множество юмористических названий все же появилось), то теперь нужно задумываться и об особенностях операционных систем. Нельзя не только использовать ругательства и уничижительные слова («в идеале — на любом языке»), но также и букву G (сокращение для гена), указания на вид и часто употребляемые аббревиатуры. Нельзя также применять греческие буквы и римские цифры (вместо них — латиница и арабские цифры), а название гена обязательно должно начинаться с буквы. Псевдогены и различные некодирующие РНК также попадают под действие этих правил.
Однако не всегда стоит винить комьютеры во всех смертных грехах. Так, ученые из Городского университета Кардиффа в Великобритании опросили 17 коллег-нейробиологов из Университета Ньюкасла и провели два подробных интервью и обнаружили, что исправления данных в таблицах могут привести к ошибочным научным результатам, разрушить карьеру и репутацию организации. «Исследование показывает, что почти все, кто строит модели в таблицах Excel, не прошли формального обучения (в этой области — прим. Indicator.Ru). […] Большинство погрешностей не появляются из-за ошибок в программе таблиц, скорее, причиной становится неверное понимание логики программирования. […] Когда ошибка совершена, ее очень трудно найти и исправить», — отмечают авторы работы. Хоть это лишь небольшой опрос, мысль он продвигает неплохую: не можешь что-то победить — возглавь (а в случае с восстанием машин — научись их понимать и командуй).
Понравился материал? Добавьте Indicator.Ru в «Мои источники» Яндекс.Новостей и читайте нас чаще.
Подписывайтесь на Indicator.Ru в соцсетях: Facebook, ВКонтакте, Twitter, Telegram, Одноклассники.