«Экселевский ад»: автокоррект в эпоху больших данных

Как ученых мучают автоисправления в Excel-таблицах

Почему ученые переименовали 27 человеческих генов, а банки и компании потеряли миллиарды долларов, какая ошибка подлила масла в огонь Великой рецессии и оставила множество людей без работы, как настройки экселевских таблиц вредят медицине и нейронаукам и что можно с этим сделать, читайте в материале Indicator.Ru.

Большие данные — большие проблемы

Большие данные проникли в самые разные области исследований. Еще в 2012 году ученые отмечали, что модели, на обработку которых десять лет назад потребовался бы год, сейчас обрабатываются за тридцать секунд. Но несмотря на огромный прогресс, иногда компьютеры представляют настоящую угрозу для человечества.

Нет, восстания машин в ближайшее время не предвидится. Проблема приходит с неожиданной стороны: программное обеспечение становится все самоувереннее в своих исправлениях. Пока кого-то забавляет, что автокоррект в Apple способен написать тезисы на конференцию по физике частиц (которые, как доказал профессор из Новой Зеландии, примут организаторы), грамотеи по всему миру переживают, что, полагаясь на автоматическое исправление ошибок, мы становимся ленивее и глупее.

Тем временем ученые жалуются на жизнь в «экселевском аду». Excel со своими таблицами и диаграммами стал незаменимым инструментом, превращаясь (с некоторыми дополнениями) в платформу для анализа данных с возможностями машинного обучения. Хотя когда-то он и был создан на примитивном языке BASIC, популярном в шестидесятые, используется он очень широко, особенно среди «не слишком грамотных в цифровых технологиях и вычислениях» людей. В программе можно писать скрипты на Python, и в целом она довольно удобна для редактирования данных (пусть и не слишком «больших данных») в 2D. Но многофункциональность и простой интерфейс — то, что нужно, чтобы втереться в доверие и натворить бед, если эти качества сопровождает настойчивость в исправлениях.

Ошибки в Excel и экономический кризис

Как пережить цифровой апокалипсис

26 мая 2017, 08:00

Десять лет назад два экономиста из Гарвардского университета, Кармен Райнхарт и Кеннет Рогов, обнаружили, что госдолг США превысил 90% ВВП и уничтожил экономический рост. Чтобы компенсировать эту проблему после Великой рецессии (кризиса 2008 года) политики разных стран приняли решения урезать расходы, в результате чего миллионы образованных людей остались без работы. Правда, вскоре профессор и его студент из Мичиганского университета указали на их ошибки, что затем подтвердили другие ученые из Массачусетского университета. В итоге выяснилось, что долги вызваны замедленным экономическим ростом, а не наоборот. Оказалось, что ошибка в Excel-таблицах привела к неправильному анализу данных После корректировки заявленный изначально эффект просто исчез.

Во время того же кризиса один из крупнейших банковских конгломератов в мире, британский Barclays, пострадал, заключив с Lehman Brothers 179 контрактов, которые должны были быть удалены. Произошло это из-за ошибки двух молодых юристов, которые попытались стереть колонки из таблицы Excel. Но ненужные контракты просто скрылись, и при конвертировании в pdf-формат были распечатаны. Потери от этой истории банк предпочел скрыть (что, впрочем, и неудивительно).

Огромная канадская энергетическая компания TransAlta также пала жертвой коварства Excel: сотрудников подвела функция копирования в буфер обмена и вставки. Из-за ошибки и недосмотра компания потеряла 24 миллиона долларов по американскому контракту в мае 2003 года. Еще больше не повезло американскому холдингу JP Morgan: он лишился шести миллиардов долларов из-за сходной проблемы, потому что неверно были вставлены данные для расчета модели стоимости под риском. И снова аналитиков подвели компьютерные таблицы.

«Скрепыш умер и преследует нас как полтергейст»

Из-за подобных ошибок страдают не только работающие с числами аналитики, математики или экономисты. В других науках (в том числе и науках о жизни) автоисправления таблиц создают не меньше проблем. Так, в 2016 году исследователи подсчитали, что каждая пятая работа по генетике содержит ошибки из-за своевольной программы Excel.

Таблица Excel в генетических исследованиях: так много способов все испортить

«Проблема очевидна: не вмешивайтесь в генетику, иначе получится Парк юрского периода», — жалуются пользователи. «Неосторожные сокращения названий генов ведут к проблемам. […] Отключить автоматические изменения в MS Excel невозможно», — вторят им коллеги, проанализировавшие 18 научных журналов по генетике в поисках ошибок. В 3597 статьях, опубликованных с 2005 по 2015 год и содержащих 7467 экселевских файлов со списками генов в приложениях, они нашли погрешности в 987 работах, что привело к 10 ложноположительным результатам.

Журнал	Количество отсканированных файлов Excel	Количество файлов со списками генов	Количество статей со списками генов	Количество затронутых приложений к статьям	Количество затронутых статей	Количество переименованных генов
PLoS One	7783	2202	994	220	170	4240
BMC Genomics	11464	1650	801	218	158	4932
Genome Res	2607	580	251	114	68	3180
Nucleic Acids Res	2117	540	315	88	67	1661
Genome Biol	2678	664	257	97	63	1878
Genes Dev	932	395	190	75	55	1593
Hum Mol Genet	980	372	168	48	27	1724
Nature	482	150	74	27	23	1375
BMC Bioinformatics	1790	235	152	26	21	534
RNA	569	127	77	20	15	1341
Nat Genet	264	70	37	12	9	178
Bioinformatics	731	112	67	11	6	339
PLoS Comput Biol	177	79	32	6	6	46
PLoS Biol	143	54	29	7	5	206
Mol Biol Evol	995	112	79	7	4	56
Science	172	36	19	7	3	451
Genome Biol Evol	490	32	25	2	2	121
DNA Res	801	57	30	2	2	6
Итого	35175	7467	3597	987	704	23861

Пока кто-то переходит на Google-таблицы и скрупулезно переформатирует столбцы, остальные публикуют научные статьи с неверными данными: SEPT2 (септин-2) превращается во второе сентября, выражение 2310009E13 становится 2.31E+13, четырнадцатизначные пароли для IT превращаются в 5.42342E14, а комбинации цифр и букв подсчитываются как формулы. Электронная карта здоровья (electronic health record, или EHR) в базах данных медиков так часто превращается в HER («ее»), что сайт по медицинскому учету даже написал отдельную инструкцию по ручному исправлению этой проблемы в Microsoft 2010.

«Я даже не говорю о телефонных номерах в международном формате, начинающихся со знака плюс. Excel видит их как формулу. Скрепыш умер и вернулся преследовать нас как табличный полтергейст», — возмущаются другие комментаторы.

Скрепыш

Ученые наносят ответный удар

Что можно сделать с самопроизвольно исправляющимися таблицами? Автоматически помешать Excel превращать числа в даты, когда ему это кажется необходимым, невозможно: придется вручную ставить апострофы перед числами, пробелы (или нули, если числа написаны через слэш). Можно также выделять нужные строчки, но это опять же не вариант для исправления огромных многостраничных документов. При новых настройках это можно изменить для отдельных столбцов, но такие настройки, если не сохранять их отдельно, могут сбиться при неправильном открытии или конвертировании пересланных документов. А избежать этого тоже не удастся: ученые делятся данными и сотрудничают с коллегами со всего мира, и поручиться за каждую загрузку и переформатирование нельзя. Есть множество «трюков», быстрых команд и сочетаний клавиш, которые помогают исправить ситуацию, как Ctrl Z в Microsoft Word, исправляющий предыдущую корректировку. Но, к сожалению, это вновь работа вручную, которая не подходит для больших массивов информации.

Генетики сдались в этой борьбе и сделали ход конем: они переименовали 27 генов, которые похожи на даты. Представители Комитета по номенклатуре генов сочли, что проще, к примеру, называть MARCH1 (что расшифровывается как Membrane Associated Ring-CH-Type Finger 1) MARCHF1, а SEPT1 превратить в SEPTIN1, чем дождаться обновлений от Microsoft Excel, исправляющих проблему, которая их «очень, очень раздражает». Ученых можно понять: их жалобы за пятнадцать лет не привели к изменению ситуации. Но логично и поведение компании: зачем прикладывать такие усилия, если вы почти монополист на рынке? Аудиторию это точно не расширит.

Автоисправление названий генов в Microsoft Excel

Эти странные гены: необычная номенклатура белков и генов

06 января 2017, 19:13

Более того, генетики переписали руководства для присвоения названий новым открытым генам. Если раньше приходилось учитывать, что связанные с ними наследственные заболевания могут достаться и человеку, а потому порывы энтузиазма нужно сдерживать, чтобы названия не звучали неэтично (хотя множество юмористических названий все же появилось), то теперь нужно задумываться и об особенностях операционных систем. Нельзя не только использовать ругательства и уничижительные слова («в идеале — на любом языке»), но также и букву G (сокращение для гена), указания на вид и часто употребляемые аббревиатуры. Нельзя также применять греческие буквы и римские цифры (вместо них — латиница и арабские цифры), а название гена обязательно должно начинаться с буквы. Псевдогены и различные некодирующие РНК также попадают под действие этих правил.

Использовать электронные таблицы Microsoft Excel в науке опасно

07 августа 2017, 17:50

Однако не всегда стоит винить комьютеры во всех смертных грехах. Так, ученые из Городского университета Кардиффа в Великобритании опросили 17 коллег-нейробиологов из Университета Ньюкасла и провели два подробных интервью и обнаружили, что исправления данных в таблицах могут привести к ошибочным научным результатам, разрушить карьеру и репутацию организации. «Исследование показывает, что почти все, кто строит модели в таблицах Excel, не прошли формального обучения (в этой области — прим. Indicator.Ru). […] Большинство погрешностей не появляются из-за ошибок в программе таблиц, скорее, причиной становится неверное понимание логики программирования. […] Когда ошибка совершена, ее очень трудно найти и исправить», — отмечают авторы работы. Хоть это лишь небольшой опрос, мысль он продвигает неплохую: не можешь что-то победить — возглавь (а в случае с восстанием машин — научись их понимать и командуй).

Понравился материал? Добавьте Indicator.Ru в «Мои источники» Яндекс.Новостей и читайте нас чаще.

Подписывайтесь на Indicator.Ru в соцсетях: Facebook, ВКонтакте, Twitter, Telegram, Одноклассники.

Автор: Екатерина Мищенко

Теги #Институт белки #Ген