Опубликовано 22 мая 2019, 18:44

«Интернет был создан для обмена научными данными, но сейчас это получается плохо»

Марк Ханнел об открытой науке и обмене данными
Марк Ханнел

Марк Ханнел

© Lianna Brinded/figshare

О технологии хранения и индексации научных данных figshare в интервью Indicator.Ru рассказал ее создатель Марк Ханнел, который приехал в Россию по приглашению компании Digital Science Россия & СНГ и нескольких крупнейших российских университетов, интересующихся современными технологиями открытых репозиториев.

Figshare — это молодая, но уже ставшая крупнейшей в мире технология хранения и индексации научных данных, технология для создания порталов и платформ-репозиториев открытой научной и образовательной информации в контексте науки и образования любого типа — видеофайлов, 3D-моделей, оцифрованных картин, музыкальных файлов, баз больших данных (например, расшифровок геномов). Технология интегрирована крупнейшими издателями, такими как Wiley, Nature, Springer и многими другими, в качестве платформы, позволяющей работать с непечатными полевыми или лабораторными данными, моделями статей, диссертаций, монографий, тезисов.

— Марк, что представляет из себя figshare? Каковы главные свойства платформы и ее миссия?

— Главная идея figshare — это открытая наука. Когда я писал свою диссертацию по стволовым клеткам, у меня скопилось много видео, много массивов данных. При отправке статьи на публикацию оказалось, что видео, где стволовые клетки перемещаются с одного конца экрана на другой, слишком большое, а журнал не принимал файлы больше пяти мегабайтов. Интернет был создан для обмена научными данными, но сейчас это получается плохо. Cначала я начал выкладывать в открытый доступ свои файлы. Из этого массива данных и возник сайт figshare.com, куда каждый может бесплатно загрузить научные данные, прикрепить метаданные. А мы уже позаботимся об интеграции материалов в академическую среду: сделаем данные цитируемыми, открытыми для поиска, видимыми в Google Scholar, PubMed, у крупнейших издателей, присвоим DOI и т. д.

— Допустим, ученый загружает свои данные в систему figshare. Но как эта информация становится доступной для других ученых мира? Как они могут использовать данные?

— Во-первых, мы как технологическая компания обеспечиваем открытость поиску (SEO, технологически грамотная индексация в базах данных). Но если я загружу нечто и открою общественности, где гарантия, что это хорошее исследование? Поэтому нам пришлось привлечь к работе над системой новых людей. С нами заключают договоренности университеты, и они (обычно в лице библиотекарей) проверяют данные перед тем, как они станут публичными. Стратегически создание доступных данных по проведенным научным исследованиям облегчает жизнь ученых – им не приходится во второй раз делать уже сделанную кем-то работу.

— Вы придумали этот дополнительный человеческий уровень или он появился по инициативе университетов?

— По инициативе университетов. Библиотеки и университеты считают себя экспертами по курированию контента (сбору, систематизации и публикации информации – прим. Indicator.Ru), и мы должны уважать их правила, если мы сотрудничаем с ними. Если, например, данные необходимо хранить в России — данные будут храниться в России. В целом нам хватает технологических забот. Работу по экспертной оценке данных мы отдаем университетам.

— Каковы мои возможности с точки зрения обычного пользователя? Сколько места на сайте вы даете? Какая лицензия у данных? С какими проблемами я могу столкнуться?

— На бесплатный аккаунт мы выделяем по 20 гигабайтов для приватных данных. Для данных, размещаемых в публичном доступе, место не ограничено. Многие люди загружают информацию, чтобы повысить свою цитируемость, в том числе в Altmetric. Другие, напротив, предпочитают держать данные в приватном режиме, чтобы делиться ими только с коллегами по исследованию, и открывать только после публикации статьи. Для таких ученых у нас тоже есть специальные технологические процессы, например, эмбарго, где до определенного момента открываются только метаданные, но не сами файлы. Или вот, допустим, ситуация с журналом Nature, который требует от авторов открытых исходных данных. Но что делать, если рукопись не опубликуют? Для таких случаев мы резервируем приватную ссылку, которую может открыть редактор или рецензенты, но которая «сгорает», если рукопись в итоге отклонят.

— Таким образом, у вас продуманы различные опции по доступу для пользователей разного типа?

— Именно. В 2011 году, когда я только начинал работать над figshare, я был радикалом – все данные должны быть открытыми, тогда наука будет развиваться быстрее! Но потом я понял, что это немного наивно. Не нужно все сразу делать публичным. Например, не стоит выкладывать в открытый доступ расшифровку геномов детей, потому что потом у них возникнут сложности с приобретением медицинской страховки. Еврокомиссия хорошо сформулировала (в своих рекомендациях по работе с данными – прим. Indicator.Ru) — «открыто по мере возможности, закрыто по мере необходимости». Ученым иногда выгодно открывать исходные данные, иногда их к этому принуждают фонды или университеты, а иногда им это вовсе не нужно.

— Существуют ли какие-либо встроенные технические возможности для рецензирования или иных форм получения обратной связи?

— В платформу figshare для научных учреждений (figshare for Institutions) встроен специальный модуль рецензирования. Например, на ChemRxiv, сервере препринтов по химии, построенном на инфраструктуре figshare, работает небольшой коллектив редакторов, которые применяют модуль рецензирования для первичной оценки рукописей на предмет их научной состоятельности, отсутствия плагиата и вирусов. В будущем мы планируем привлечь и других издателей к использованию модуля рецензирования.

— Марк, а чем figshare отличается от других открытых репозиториев научных данных, вроде Zenodo, Dryad или GitHub?

— Одно из ключевых свойств, отличающее figshare от других инструментов — это предпросмотр контента. Посетители нашего сайта могут предпросматривать файлы более 1200 форматов непосредственно в браузере, что снимает необходимость скачивания для оценки релевантности. Кроме того, figshare допускает интеграцию с другими сервисами обмена открытыми данными. Уже реализована интеграция с GitHub и Open Science Framework (OSF). Также figshare собирает опубликованный контент с репозиториев общего типа (таких как Zenodo и Dryad), что позволяет исследователям искать и группировать нужные им данные в одном месте. Мы считаем, что сильной стороной открытой системы поиска должно быть движение информации между платформами, не создающее трудностей для пользователя. Еще одно важное отличие – правила работы с данными figshare полностью соответствуют принципам FAIR data (findable, accountable, interchangeable, reсoverable data [находимые, объясняемые, взаимозаменяемые восстанавливаемые данные] – прим. Indicator.Ru) и мы сотрудничаем со всеми крупнейшими мировыми издателями и агрегаторами научной информации – Nature, Wiley, Springer, PubMed, Google Scholar. Мы берем на себя все эти сложности, и информация, предоставляемая ученым, действительно становится легко находимой и, если нужно, привязанной к его трудам и статьям.

— Не могли бы вы рассказать о достижениях figshare? Каков объем представленных данных, какие дисциплины?

— Около пяти миллионов файлов находятся в публичном доступе. При этом мы не говорим о множестве университетских репозиториев по всему миру, которые поддерживаются нашей технологией. Мы работаем примерно со 100 университетами, музеями, фондами, научными ассоциациями по всему миру. По дисциплинам, конечно, больше представлена биомедицина. Однако у гуманитарных наук есть масса контента, который некуда было выкладывать, — например, аудиозаписи песен неизвестных племен или карты. И сейчас от гуманитариев приходит все больше и больше данных, и мы очень рады этому.

— Если я правильно понимаю, вы гарантируете, что такие аудиозаписи будут храниться вечно?

— Для бесплатной версии — как минимум на десять лет, если речь идет об открытой для всех платформе figshare. Но вообще наша цель — хранить вечно. В этом и есть разница с GitHub или Dropbox, где в любой момент данные, загруженные вами, могут пропасть. Мы присваиваем цифровой идентификатор — DOI — и делаем так, чтобы данные были устойчивыми, для науки иначе нельзя. А дальше, если университету или организации нужно хранить данные у себя на сервере — пожалуйста. Нужно хранить их в «облаке», которое хостится, например, в России — пожалуйста. Мы никак это не ограничиваем и не влияем на то, где и как хранить данные, кому их показывать или не показывать – это всегда выбор ученых, университетов и лабораторий.

— Были случаи, когда выкладывание данных на figshare приводило к научным прорывам?

— Конечно. Одна команда провела визуализацию маршрутов перемещений из дома на работу — такое сложно показать в статичном pdf-файле. Они открыли первый массив данных — и о них написал Wired. Открыли второй — о них написал сайт BBC, и они получили премию как статистики года в Великобритании. Публикация в виде журнальной статьи вряд ли дала бы такой успех.

Другой пример — новая система нанопорового секвенирования генома. Несколько лабораторий начали соревноваться, кто первым его проведет, а представить результаты в журналах было слишком длительным процессом. На figshare можно оперативно загрузить данные, проставить время публикации и зафиксировать свой приоритет.

— Каковы ваши планы на будущее, особенно в плане работы в России?

— Мы работаем с головной компанией в регионе — Digital Science Россия & СНГ, университетами-партнерами Digital Science, ведем переговоры с университетами-участниками Проекта 5-100 по вопросу цифровизации научного контента. Европа, США и Китай активно начали работать в направлении открытости научных и образовательных данных. Россия наверняка будет двигаться в аналогичном направлении и рассматривать лучшие практики и мировые стандарты хранения и доступности научных данных. Мы планируем сотрудничать с российскими университетами, чтобы вместе решать эту задачу так, как это удобно российскому научному сообществу, правильно локализовать наше решение — технология это позволяет. А потом уже наступит время вместе подумать, какие крутые штуки можно будет делать с доступными данными. Если мы идем к цифровому будущему, искусственный интеллект сможет сам собирать массивы информации, искать и находить нечто новое.

Понравился материал? Добавьте Indicator.Ru в «Мои источники» Яндекс.Новостей и читайте нас чаще.

Подписывайтесь на Indicator.Ru в соцсетях: Facebook, ВКонтакте, Twitter, Telegram, Одноклассники.