Опубликовано 08 октября 2018, 20:30

«Мы создаем платформу, которая помогает ученым»

Репортаж с форума о цифровой науке
«Мы создаем платформу, которая помогает ученым»

© ISO Republic

Можно ли использовать блокчейн для рецензирования, что в РАН подразумевают под «цифровизацией науки», как будет развиваться РИНЦ, как гонка за количеством цитирований разрушает научный мир, и как с помощью грантов можно предсказывать будущее, читайте в репортаже Indicator.Ru с форума «Цифровая наука — мировые тренды и "большие данные" в российском контексте», который организовали президиум РАН и компания Digital Science Россия.

Форум проходит в Москве уже во второй раз, и в этом году его принимало здание президиума Российской академии наук. С докладами на форуме выступили вице-президент РАН Алексей Хохлов, заместитель министра науки и высшего образования РФ Марина Боровская, генеральный директор Digital Science в России Игорь Осипов, а также лидеры российских компаний, занимающихся оценкой качества научных исследований и цифровой наукой, видные зарубежные лидеры цифровой инфраструктуры и научные издатели.

Приветственные речи начались с того, что наука уже сегодня немыслима без цифровых технологий. Соорганизатор форума, вице-президент РАН Алексей Хохлов, даже вспомнил, что раньше научные статьи приходилось набирать на машинке, а лично поговорить с коллегой с другого конца света можно было разве что на конференции раз в полгода. Сегодня личное присутствие не так важно: для общения есть Skype, ответить на сообщение по электронной почте можно хоть из леса, а научные журналы лишь ставят (или не ставят) на статьях знак качества, ведь опубликовать информацию и сделать ее общедоступной может каждый.

Марина Боровская, заместитель министра науки и высшего образования, отметила важность цифровых хранилищ для научных коллекций, назвав оцифровку данных «попыткой систематизировать свой чердак», подразумевая, видимо, не только заросшие пылью институтские хранилища, но и голову. На открытии звучало много модных слов: цифровая инфраструктура, блокчейн, big data, цифровизация… Посмотрим, что за этими словами стоит. Денис Секиринский, представлявший научный блок Администрации Президента РФ, кратко поприветствовал всех и предложил не тратить время и начать работу.

Фантазии на конференции без галстуков

Штефан фон Хольцбринк, владелец компании Holtzbrinck Publishing Group (которой принадлежат многие издательские дома, в том числе Nature, Springer, Scientific American, Macmillan, Die Zeit и другие), говорил об открытости и объединении усилий в науке как о единственном способе угнаться за стремительным прогрессом и сотнями тысяч ежегодных публикаций. Наука становится все более интернациональной, однако часто «максимальная открытость науки» и другие громкие слова становятся лишь «красивым фасадом, за которым ничего нет».

«Россия — очень обширная страна, и ее наука — очень обширная тема, — заявил он, отмечая, что сложно выбрать, что сказать за 15 минут, выделенных на каждое выступление. — Если вы говорите на конференции о науке и исследованиях более 15 минут, то 30% аудитории еще продолжит вас слушать, 50% потеряет нить повествования, а еще 20% погрузится в эротические фантазии». Это не помешало ему начать издалека — с Клары Цеткин (которая была родом из его родного Штутгарта) и Берлинской стены и вспомнить всю историю взаимоотношений России и Германии за последние 100 лет, пока существует издательство, основанное в 1948 году его отцом, Георгом фон Хольцбринком.

Клонил он к тому, что Германии надо сохранять дух сотрудничества, когда ей на пятки в конкурентной борьбе наступают США и Китай. Одиночкам в этой гонке не уйти вперед, множество проблем требуют совместных решений, и, если удастся объединиться с Россией, плюсы могли бы ощутить обе страны. «Каждая из больших американских компаний: Amazon, Google и Facebook — вкладывает в исследования в пять раз больше денег, чем Общество имени Макса Планка, поэтому с точки зрения России и Европы объединение усилий было бы очень полезно для развития науки. Будущим будет управлять не одна страна, не одна компания, иначе как мы можем быть уверены, что прогресс и процветание наступили для всех», — считает он. И в этом будущем залогом успеха станут новые инструменты для лучшей экспертизы научных статей, прозрачность науки и открытость полученных данных.

Немного открытости в саму конференцию предложил внести соорганизатор форума Игорь Осипов, основатель CEO Digital Science Russia, президент эндаумент-фонда Дальневосточного федерального университета (ДВФУ). Встреча проходила в буквальном смысле в узком кругу: за круглым столом под лепными потолками Александринского дворца собрались выступающие и приглашенные гости, руководители РАН, университетов, крупных международных и российских компаний, научное и профильное государственное сообщество. «Давайте сделаем эту конференцию максимально неформальной, — предложил Осипов, аргументируя это тем, что экосистема digital science существенно меняет мир, уплощает пирамиду знаний, позволяет увидеть всю картину исследований, от грантов до публикаций и патентов, и трансформирует иерархию. — Представим, что это заседание одной кафедры, и все мы делимся идеями». И тут же предложил участникам избавиться от галстуков — символа формальности. Два или три человека последовали его примеру, остальные оглянулись на соседей по круглому столу и оставили галстуки на месте.

Любовь к цифре и рейтинг, который нужен вчера

Дэниэл Хук, приглашенный профессор квантовой физики Имперского колледжа Лондона, генеральный директор холдинга Digital Science и член Совета директоров ассоциации ORCID, не упустил возможности поиронизировать над всеобщей одержимостью индексами и рейтингами. «40,137 — таков был импакт-фактор Nature несколько лет назад, — начал он. — Мы любим такие цифры, потому что их легко считать и они выглядят научно». Однако эта видимость бывает обманчива, так как цифрами трудно измерить вещи вроде эффективности изучения того, как расширяется Вселенная. Гонка за одними цитированиями разрушительна и для науки, и для системы ее оценивания. Что можно с этим делать? Улучшать существующие методы оценивания эффективности и придумывать новые. Так, в Dimensions предлагают рассматривать и анализировать исследования с точки зрения привлеченных и реализованных грантов. Это указывает на тренды в науке и даже позволяет делать предсказания, где нужно ожидать рост и грядущие открытия и как развитие одних областей будет подстегивать другие.

Роман Гуринович, основатель и CEO sci.AI, рассказал о применении мега-big data в науке на примере одной из самых горячих тем современной биологии и медицины — болезни Альцгеймера. На эту тему выходят тысячи статей, и знание рассеяно по ним: где-то описаны молекулярные механизмы, где-то — клинические данные, где-то — информация об отдельных возможных лекарствах. «Потенциальное решение состоит из двух компонентов: один преобразует естественный язык статей в читаемый машиной "цифровой" формат, вторая часть, используя эти структурированные данные, может принимать вопросы ученого и, соответственно, отвечать на них, связывая определенные знания», — отметил Гуринович. При этом в биологии важна не только связь между данными, но и причинность. Применение мега-big data в биологии позволяет интерпретировать собственные экспериментальные результаты или строить модель будущего эксперимента, чтобы не тратить время на уже сделанное другими.

Базы данных обсуждал в своем докладе и заместитель директора Физического института имени П.Н. Лебедева РАН Олег Иванов. Он отметил, что «работа с базами данных — это не искусственный интеллект, а правильное использование своего». И особенно бывают важны «сырые» данные. Результаты различных замеров, вычислений или куча роликов энцефалограмм, которые пылятся без дела в архивах институтов, могли бы служить для уточнения научной информации, проверки добросовестности автора статьи, тестирования новых методов аналитики. Базы данных позволяют вывести отчетность на следующий уровень, при помощи самоидентификации и сопоставления информации, не заполняя везде одно и то же (это можно было бы сделать, если соединить много баз данных, хотя и не сливая их в одно глобальное хранилище). Однако здесь, как выяснилось уже в обсуждении с участниками, главная проблема не в том, где хранить такие массивы информации, а в том, что институты часто сами не знают, какие данные хранятся в их недрах. Пока что нужно разбираться в завалах накопленных «сырых» данных и начинать сдавать вместе с отчетностью новые.

Кроме того, после подтверждения данных и результатов исследований в научном сообществе институты, ученых, страны, направления можно рейтинговать. И, конечно, для всех этих рейтингов понадобятся свои подходы. «Когда у вас возникает какая-то задача, вам надо оперативно, быстро сделать рейтинг под нее. Как правило, этот рейтинг нужен еще вчера, это типичная ситуация, которая накладывает некоторые ограничения», — с улыбкой отметил Олег Иванов. Правда, открытый доступ ко всем материалам статьи, включая сырые данные, часто противоречит издательской политике, поскольку так могут быть потеряны или не учтены цитирования и упоминания, но эти юридические вопросы еще только предстоит решить.

Токенизация науки и опыт Юга России

Йорис ван Россум, основатель международных проектов Blockchain for Peer Review и Peerwith, предложил совместить идентификацию вклада конкретного ученого в базах данных с блокчейном. Токенизация науки могла бы снабдить все плоды исследовательской работы цифровой подписью. «Это сделало бы науку более прозрачной и воспроизводимой, — считает ван Россум. — Зачем здесь использовать блокчейн? Это самый важный вопрос. Если мы не используем блокчейн, у нас есть центральный владелец базы данных. Вся власть, вся информация сконцентрировалась бы в его руках. Блокчейн позволяет отлеживать информацию, храня ее в самых разных местах, и следить, что случилось с конкретным ученым». Таким образом, при помощи блокчейна (в качестве цифровой идентификации) можно делиться данными, не переживая, что их кто-то присвоит, а также проводить peer review — рецензирование статей перед публикацией.

После этого в программу немного неожиданно вписались два доклада от представителей российских вузов о своих проектах и успехах. Ирина Шевченко, ректор Южного федерального университета, рассказала о построении инфраструктуры цифровой науки и создании хранилища, которое объединяет данные научных организаций региона (Консорциум вузов Юга России), на основе технологий Digital Science. Другое направление работы в университете — картирование научных областей и подсчет скорости развития науки при помощи данных Dimensions (которые опираются на гранты). Например, в биологии за время, пока читался каждый доклад, в мире вышло примерно 250 статей.

Алексей Бескопыльный, проректор по учебной работе и подготовке кадров высшей квалификации Донского государственного технического университета, тоже поведал о создании цифрового образовательного пространства Ростовской области (сейчас в этом проекте участвуют более 600 образовательных организаций из 43 районов). Также он сообщил, что ДГТУ изучает применение цифровых технологий в сельском хозяйстве (учет и контроль температуры, давления, влажности, ветра, расчет оптимального количества удобрений), работает над проектами по созданию роя роботов, 3D-моделированию в строительстве и синхронизации светофоров для решения проблемы ростовских пробок. Кроме того, в следующем году ДГТУ открывает 25 «цифровых» направлений магистратуры (например, «цифровой бухгалтерский учет»). Ректор ДГТУ тоже вставил словечко в выступление коллеги: он предложил собраться с теми же гостями, но с большим количеством ректоров, на площадке южных университетов, так как обсудить цифровизацию было бы полезно всем университетам.

После них выступил Марк Ханнел, основатель проекта Figshare — репозитория, который позволяет хранить любые приложения к научным статьям в разных форматах, а также делиться ими. Он отметил, что хранение данных возможно как в «облачном» виде, так и локально, на серверах университетов. Когда-то сам ученый занимался стволовыми клетками, потратил выходные на съемку видео к статье, но видео не приняли в журнал. Это и вдохновило его на создание такой платформы. Сегодня Figshare работает с университетами и журналами, позволяет хранить изображения, видео, прочтенные последовательности геномов и т. д. в разных местах, выбирая, сделать файлы общедоступными или нет. В общем, подстраивается под самые разные нужды. Недавно менее чем за год его компании удалось систематизировать научные данные 26 университетов в Южной Африке. Благодаря Figshare данные приобретают свой индекс API, и их принадлежность и цитирования можно отслеживать, представляя их в качестве отчетности и привлекая финансирование.

«Мы не рекламируем Sci-Hub»

«Мы говорим про большие данные. Раз данные большие, и количество ошибок большое. Есть какой-то процент неполной информации. Для миллиона статей еще можно как-то справиться, найти людей, которые что-то исправят. Когда мы говорим о сотнях миллионов, задача становится трудноисполнимой», — поставил перед слушателями проблему следующий докладчик, основатель РИНЦ Геннадий Еременко. А ведь в год в российских журналах выходит два миллиона публикаций. Понятно, что оценивать эффективность науки, основываясь на количестве таких разноуровневых публикаций, нельзя. А ведь для национальных и региональных индексов собрать информацию лишь 20% успеха. 80% — это структурировать, проанализировать данные и принять решение. Поэтому ближайшее развитие РИНЦ будет включать следующие пункты:

  1. максимальный охват разных типов публикаций, отдельные поисковые формы для диссертаций, статей и так далее;

  2. улучшение качества и точности данных идентификации, ссылок;

  3. создание национальных «полок» для всех публикаций из соседних стран;

  4. интеграция РИНЦ с международными и российскими базами данными;

  5. расширение возможностей системы.

Под последним пунктом подразумевается расширение работы с ведущими исследователями в качестве экспертов. Увы, искусственный интеллект пока что отличать хорошие публикации от плохих не научился, а чем меньше привлечено самих ученых мужей, тем больше мы «теряем культуру экспертной оценки». Правда, пока не до конца понятно, по каким критериям выбирать достойных экспертов (у нас с экспертизой и рецензированием научных журналов проблем немало). Ближе к завершению выступления Еременко сообщил, что РИНЦ договорился с крупнейшими международными платформами, включая Dimensions от Digital Science, о размещении публикаций российских издателей в цифровом виде. Детали проекта появятся в ближайшее время.

Алексей Лутай, руководитель аналитических проектов РФФИ, посвятил свой доклад вполне академическому исследованию популярности российских статей на основании скачиваний в Sci-Hub и данных альтернативных метрик. Пользователи портала производят 500 тысяч загрузок в день, интересуясь в том числе и российскими переводными журналами (сегодня их существует 224). По его словам, данные о загрузке публикаций из Sci-Hub могли стать «дополнительной альтметрикой», уменьшая «серую зону» публикаций, о судьбе которых после их выпуска ничего не известно. Используя сразу четыре индекса (статистика скачивали через Sci-Hub, CrossRef- цитирования, количество читателей в MENDELEY, упоминания в соцсетях от Altmetric), можно полнее учесть влияние публикации на научный мир. Докладчик время от времени поглядывал на фон Хольцбринка, видимо, сам испугавшись производимого эффекта, а под конец даже добавил: «Нет, мы не рекламируем Sci-Hub, вы не подумайте».

«Вместо цифровизации обсуждаем науку»

Глава Центра моделирования данных Сколковского института науки и технологий профессор Максим Федоров сделал доклад о применении больших данных для прогнозирования и анализа развития прорывных направлений науки. Он обсудил примеры подобных исследований в области точного земледелия, полимерных композитов, в частности арамидов (по заказу АО «Оргсинтез»), использования эффекта Капицы (скачок температуры на границе сред в разных агрегатных состояниях) и охлаждения новых суперкомпьютерных и радиоэлектронных систем.

«Я считаю, что доклад, который прочитал Максим Федоров, идет вразрез с мнением физических наук, его вывод не соответствует действительности», — оспорила применение эффекта Капицы заместитель академика-секретаря Отделения физических наук РАН Наталья Истомина. Ее вопросы и комментарии обрушились на докладчиков по всем фронтам в качестве претензий и к научной точке зрения, и к статистической оценке. Так, в физике не всегда рост количества статей отражает развитие науки, ведь известны случаи с «исчезновением» публикаций, когда их изымали и засекречивали. И это только свидетельствует в пользу актуальности темы. Грантовая же поддержка часто больше отражает политику, чем естественное развитие науки. К ректорам университетов (пренебрежительно названных «простите, ЮФУ») был и другой вопрос: странно создавать какую-то новую локальную сеть, когда наука международна.

«Это наука, обсуждаем науку. Вместо цифровизации обсуждаем науку», — посетовал проректор ДГТУ. Максим Федоров нашел, что ответить: при обсуждении эффекта Капицы «речь шла о границах не твердых, а аморфных сред, где фононная теория не очень хорошо работает»; статистика не панацея, никто не заменит человеческое участие в оценивании науки, но она привлекает внимание к интересным трендам. Разгорелась небольшая, но интенсивная дискуссия, смутившая иностранных гостей, слушавших эти споры через переводчика. Кажется, в какой-то момент они утратили нить повествования и стали растерянно водить глазами. Как в кулуарах признавались ван Россум и Ханнел, такая суровая критика сразу на двух уровнях (научном и статистическом) не характерна для западных конференций: британские исследователи не очень любят спорить прилюдно и скорее оставят мнение при себе. Однако критика и ответы на нее не переросли в ссору: конференция закончилась под обмен любезностями.

«Я бы хотел контекстуализировать наш разговор, — сказал в заключение Игорь Осипов. — Dimensions был разработан совместно с огромным сообществом экспертов, в том числе российских, которые приняли активное участие в создании платформы задолго до ее официального запуска в 2018 году. Мы не хотим предложить еще один индекс, мы создали платформу, которая помогает ученым видеть науку во всех срезах, связях и в режиме реального времени и на разных языках. О российских научных журналах и путях участия российских издателей в Dimension уже говорил Геннадий Еременко. Со своей стороны, считаю, что крайне важно, чтобы наша страна была в правильном ключе представлена на мировой арене, а российские данные контролировались российскими участниками платформы, в том числе с возможностью локализации в России».

Понравился материал? Добавьте Indicator.Ru в «Мои источники» Яндекс.Новостей и читайте нас чаще.

Подписывайтесь на Indicator.Ru в соцсетях: Facebook, ВКонтакте, Twitter, Telegram, Одноклассники.