Опубликовано 05 февраля 2021, 18:37

С чего должна начинаться цифровизация российской науки?

Какой должна быть национальная инфраструктура поддержки научных коммуникаций
С чего должна начинаться цифровизация российской науки?

© Stanley Milgram/Princeton University/SergeyNivens/Getty Images/Indicator.Ru

Почему существующая инфраструктура метаданных мешает развитию науки в нашей стране, какими должны быть для нее единые цифровые платформы и кто их должен выстраивать, в своем программном тексте специально для Indicator.Ru разбираются директор Государственной публичной научно-технической библиотеки СО РАН Андрей Гуськов и его замеcтитель по развитию Денис Косяков.

В рамках государственной программы «Научно-технологическое развитие РФ» в 2021 году предусмотрена реализация основного мероприятия «Интеграция ресурсов библиотек, архивов, иных организаций, в том числе осуществляющих функции государственных депозитариев, в Национальную электронную библиотеку». Кроме того, согласно протоколу объединенного заседания проектных комитетов по национальным проектам «Образование» и «Наука» № 10/6 от 30 сентября 2020 года, Минобрнауки России было поручено проработать вопрос включения в национальный проект «Наука» «предложений по созданию единой платформы цифровых библиотечных ресурсов и онлайн-курсов для образовательных высшего образования и научных организаций».

Очевидно, что расширение проекта Национальной электронной библиотеки на сегмент научной литературы призвано решить важную и нужную задачу — увеличить доступность полных текстов публикаций: монографий, диссертаций, статей в журналах, сборниках, трудах конференций и так далее. Однако необходимо осознавать, что поток научной литературы очень большой, в Научной электронной библиотеке ежегодно регистрируется 500–600 тысяч только журнальных статей. Помимо доступности полных текстов нужно обеспечить возможность их обнаружения, что связано с необходимостью создания, поддержания и предоставления доступа к метаданным — данным о данных. При этом работать с метаданными можно без ограничений, связанных с авторским правом. Именно метаданные обычно используются при поиске информации, подготовке публикационных отчетов, формировании тематических информационных ресурсов и репозиториев, то есть являются основой для многих процессов научных коммуникаций. Другими словами, метаданные применяются для решения базовых задач управления научной информацией: идентификации и учета документов, связывания данных из различных источников, информационного поиска и решения разнообразных аналитических задач.

Качество метаданных также имеет большое значение. Например, если у автора публикации указаны лишь фамилия и инициалы, велика вероятность спутать его с кем-то другим, а машинная обработка таких случаев значительно усложняется. Если же в дополнение к этому в метаданных есть уникальный идентификатор исследователя, то все становится значительно проще. Аналогичные рассуждения применимы и к названиям организаций, журналов, издательств.

Отсутствие метаданных или их низкое качество имеют вполне реальные негативные последствия — избыточные трудозатраты и ошибочные решения. Невозможность идентификации документов автоматически приводит к невозможности их учета и связывания, а значит, построение любого отчета остается ручной работой (про это у каждого ученого секретаря института или диссертационного совета есть много эмоциональных историй). Невозможно организовать эффективный обмен данными, а это значит, что любой, кто захочет сформировать свою базу данных публикаций (университет, библиотека или любой другой разработчик научного репозитория), будет вынужден делать это в ручном режиме. Наконец, низкое качество метаданных приводит к разнообразным ошибкам в отчетах, которые, вероятно, используются для принятия управленческих решений (ведь для чего-то же их пишут).

Задачи, связанные с созданием инфраструктуры метаданных, должны решаться одновременно или предшествовать созданию электронной библиотеки для доступа к полным текстам – это паровоз для состава, в который могут входить разнообразные и не связанные между собой хранилища полных текстов научно-технической информации: Национальная электронная библиотека, государственные информационные системы, институциональные и тематические репозитории, электронные библиотеки. Именно инфраструктура метаданных должна лежать в основе «единой платформы цифровых библиотечных ресурсов», или шире — цифровой инфраструктуры поддержки научных коммуникаций.

Имея определенный опыт в сфере изучения и развития инфраструктуры научных коммуникаций, мы считаем необходимым высказать свои соображения об этих задачах. Предыдущий опыт показывает, что предлагаемые проекты в области национальной инфраструктуры научных коммуникаций и информационной поддержки научных исследований, как правило, объединяет несколько особенностей, крайне затрудняющих их успешную реализацию и снижающих потенциальный положительный эффект:

  • необоснованная централизация и монопольный характер программно-технических и организационных решений, которые ограничивают доступ к данным и отсекают научное сообщество от участия в их развитии;
  • отсутствие анализа накопленного опыта и учета уже имеющихся наработок;
  • отсутствие или крайне низкий уровень интеграции с имеющимися российскими и зарубежными системами;
  • игнорирование или недостаточное внимание к публикациям российских ученых в зарубежных журналах, сборниках, монографиях;
  • отсутствие или низкий приоритет задачи по представлению результатов российской науки для мирового сообщества, интеграции этих результатов в мировые информационные и справочные системы;
  • попытка построения комплексной системы, охватывающей все аспекты информационной поддержки научных исследований вместо набора отдельных сервисов.

Какими должны быть сервисы научных коммуникаций?

Организации и индивидуальные исследователи прилагают значительные усилия для поддержания своих профилей в международно-признанных базах данных (Web of Science, Scopus), идентификационных системах (ORCID), научных социальных сетях (ResearchGate, Academia.edu) и других информационных системах. Также от них требуется заполнение данных в многочисленных государственных информационных системах. Увеличение количества таких систем в сочетании с высокой степенью взаимной их несогласованности ведут к постоянному увеличению и так значительной административной загрузки исследователей и коллективов. Все более актуальным становится призыв «меньше бюрократии, больше науки (less bureaucracy, more science)». При этом увеличиваются требования к исследователям от государственных органов, научных фондов, университетов и научных организаций по предоставлению отчетности, а также растет давление через процедуры оценки результативности научной деятельности.

Близким к идеалу выходом было бы создание национальной CRIS (Current Research Information System), являющейся единой точкой ввода данных о научных исследованиях, позволяющей использовать эти данные во всем многообразии возникающих задач. Однако попытка реализации «Карты российской науки» показала, насколько сложно при централизованном подходе добиться высокого качества данных и обеспечить инфраструктуру для их пополнения, верификации и переиспользования в других системах. В то же время уже существуют системы, агрегирующие частичную информацию о научных исследованиях на национальном или международном уровне.

Так, научные электронные библиотеки eLibrary.ru и «КиберЛенинка» содержат метаданные большей части научных публикаций российских исследователей, в eLibrary поддерживается также идентификация авторов и организаций. Единая государственная информационная система учета научно-исследовательских, опытно-конструкторских и технологических работ гражданского назначения (ЕГИСУ НИОКТР) накапливает данные о проектах и результатах интеллектуальной деятельности (патентах и свидетельствах о регистрации прав). Ведомственные системы Министерства науки и высшего образования и информационные системы российских научных фондов также содержат данные о проектах.

В связи с этим представляется актуальной задача построения специализированной интеграционной платформы или их набора для консолидации и обогащения отдельных видов метаданных о научных исследованиях. В основу ее решения должны быть заложены следующие принципы:

  • Платформа должна представлять собой не монолитную систему, а набор независимых сервисов, каждый из которых решает свою задачу и взаимодействует с другими по стандартизованным протоколам.
  • Платформа должна обеспечивать интеграцию российской научной информации в международный контекст.
  • Платформа должна соответствовать парадигме открытой науки, в частности, предоставляя в открытом доступе данные и метаданные во всех случаях, когда это не противоречит законодательству.

Исходя из мировой практики, наиболее актуальными задачами являются консолидация данных о публикациях, научных проектах, персональных профилях исследователей и организациях, выполняющих научные исследования.

Национальный агрегатор проектов

Информация о выполняющихся российских научно-исследовательских проектах в настоящее время рассредоточена по нескольким информационным системам:

  • Ведомственная система Министерства науки и высшего образования (Система управления НИР и ГЗ wnir.fano.gov.ru).
  • Информационные системы РФФИ и РНФ.
  • Информационная система ФЦП «Исследования и разработки».
  • ЕГИСУ НИОКТР. Формально он должен включать данные всех вышеперечисленных систем, но фактически полнота базы данных не обеспечивается, в связи с особенностями реализации сведения о зарегистрированных проектах частичны.

Ни одна из этих систем не предусматривает возможность использования данных третьими лицами (ЕГИСУ НИОКТР поддерживает ограниченный экспорт данных в формате xml). Также серьезным недостатком этих систем является использование проприетарных систем идентификации организаций и ученых, нехватка или полное отсутствие данных об исполнителях.

В других странах уже накоплен опыт по созданию агрегаторов данных о научных проектах, финансируемых из разных источников. Так, в Швеции действует информационная система SweCRIS, объединяющая данные 12 финансирующих организаций. Информационная система обеспечивает репликацию и унификацию данных из внутренних систем фондов, возможность программного доступа и неограниченного экспорта данных. Этот функционал позволяет университетам, научно-исследовательским организациям, государственным органам использовать систему как источник авторитетных данных в своих административных задачах. Нельзя также обойти вниманием европейскую информационную систему CORDIS (Community Research and Development Information Service), аккумулирующую информацию о научных проектах и результатах их выполнения. В частности, в ней отражены все проекты, выполнявшиеся в рамках программы Horizon 2020.

На наш взгляд, российский агрегатор данных о научных проектах должен обеспечивать:

  • оперативную репликацию данных о финансируемых научно-исследовательских проектах из перечисленных выше систем;
  • обогащение данных информацией об исполнителях проекта с привязкой к признанным в России и мире системам идентификации организаций и ученых (идентификаторы eLibrary, ИНН, ORCID и т. д.), в том числе через предоставление возможности дополнения и корректировки информации исполнителями проектов;
  • интеграцию с ORCID для дополнения данных профиля исследователя в этой системе;
  • предоставление информации посредством программных интерфейсов для встраивания в институциональные и ведомственные информационные системы;
  • экспорт информации для возможностей обмена данными и использования в наукометрических и науковедческих исследованиях.

Успешная реализация этого проекта невозможна без полноценной интеграции с вышеперечисленными информационными системами, что возможно только при государственной поддержке.

Национальный реестр научных организаций

В мире действуют несколько регистров организаций (в том числе научных), наиболее известными из которых являются ISNI и GRID. Эти регистры обеспечивают минимальный набор информации об организации и постоянный идентификатор, который может использоваться в других системах. В последние годы развивается многообещающий проект ROR (Research Organizations Registry), ориентированный на интеграцию с ORCID, Crossref и другими системами, связанными с научной информацией. В России информация о научных организациях распределена по ведомственным информационным системам, частично имеется в государственной информационной системе bus.gov.ru (федеральные и муниципальные учреждения). Все российские организации имеют уникальные идентификаторы ИНН, кроме зарегистрированных в иностранных юрисдикциях. Данные организаций доступны также в государственном реестре юридических лиц.

Актуальность и полнота данных в регистрах ISNI, GRID, ROR довольно высока, но тем не менее в связи с активной реорганизацией российского сектора исследований и разработок требуются постоянные усилия по их актуализации. Также в указанных и других системах отсутствует связка с идентификаторами организаций в eLibrary.ru, Scopus, наименованиями в Web of Science и идентификатором ИНН. Таким образом, необходимы или усилия, связанные с интеграцией необходимых идентификаторов в одну, или несколько из перечисленных систем, или создание национального реестра, связывающего перечисленные системы в единый информационный массив.

Национальный реестр научных публикаций

Несмотря на отлаженную инфраструктуру, процедуры и значительный объем контента НЭБ eLibrary.ru не достигает полноты в части зарубежных публикаций российских исследователей. При этом вот уже 20 лет система Crossref регистрирует уникальные идентификаторы DOI и метаданные научных публикаций. В последнее время наблюдается активизация инициативы Open Citations, направленная на индексацию в Crossref пристатейных списков, что делает его полноценным индексом цитирования. Наличие DOI является необходимым требованием для учета научных публикаций в публикационных отчетах для Министерства науки и высшего образования, в связи с этим значительная часть российских журналов уже присваивает идентификаторы статьям и регистрирует метаданные, число таких журналов постоянно растет. Данные Crossref открыты для вторичного использования. Если бы не два обстоятельства, база данных Crossref могла бы служить полноценным источником метаданных публикаций российских ученых.

Первая сложность связана с низким качеством и неполнотой метаданных, поставляемых российскими издателями; вторая – с отсутствием поддержки мультиязычности в метаданных Crossref. По ней регистратором совместно с пользовательским сообществом образована рабочая группа, в связи с чем можно ожидать ее решения в недалекой перспективе. Первая же проблема может быть решена обучением, оказанием консультационной и технической помощи издателям.

Неисключающей альтернативой является создание, в том числе на базе уже имеющихся, сервисов НЭБ eLibrary и журнальной платформы elpub (НЭИКОН) по регистрации DOI распределенной или централизованной базы данных, дублирующей контент Crossref в части российских публикаций с поддержкой мультиязычности (наличием метаданных на национальном и английском языках) и контролем качества и полноты заполнения. Особое внимание необходимо обращать на наличие уникальных идентификаторов авторов (ORCID), организаций (ROR), предпринять усилия по стандартизации метаданных о финансировании с привязкой к идентификаторам научных проектов. Также необходимо организовать ретроспективную регистрацию DOI на издания прошлых лет.

Опора на DOI обеспечивает также возможность поддержки распределенной инфраструктуры по хранению и обеспечению доступа к полным текстам научных публикаций на сайтах журналов и в институциональных репозиториях. Необходимо поддерживать усилия по организации и развитию таких репозиториев. Для удобства пользователей и развития дополнительных сервисов могут быть организованы агрегаторы научной информации, одним из примеров реализации является проект NORA от НЭИКОН.

Таким образом, основные усилия следует направить на обеспечение качества и полноты метаданных российских изданий. Это позволит на базе Crossref и/или национальной базы метаданных организовать многочисленные, в том числе конкурирующие, сервисы научной информации как на коммерческой основе, так и по государственному заданию.

Национальная информационная система CV научных работников

Оптимизация задачи предоставления личной информации при подаче заявок на замещение вакантных должностей или конкурсы научных грантов признана актуальной во многих странах, и приложено много усилий по ее решению. Одним из путей решения этой задачи является создание национальной системы научных профилей (Curriculum vitae, резюме). В качестве примера можно привести португальскую национальную систему Plataforma DeGóis, разработка которой поддерживается Фондом науки и техники (Fundação para a Ciência e a Tecnologia, FCT).

В России каждый научный фонд поддерживает собственную базу данных участников проектов, есть также Единая информационная система проведения конкурсов на замещение должностей научных работников. Достаточно полные профили исследователей, включающие частичную историю работы, поддерживаются НЭБ eLibrary. Все эти системы никак не связаны, ни в одной из них нет полноценных данных, нет никакой возможности собрать полный профиль исследователя в автоматическом или полуавтоматическом режиме. Использование ORCID, позволяющего пользователю зарегистрировать данные об образовании, истории работы, участии в научно-исследовательских проектах и публикациях, ограничено отсутствием полноценной поддержки мультиязычности, ограничениями на обработку персональных данных, сложностями использования зарубежных сервисов в государственных информационных системах.

Национальная информационная система CV должна обеспечивать:

  • возможность ведения мультиязычного профиля исследователя: (ФИО, история изменений; Образование и квалификация; Опыт работы; Участие в научных проектах; Публикации; Результаты интеллектуальной деятельности);
  • связь с другими ИС и идентификаторами (WoS Researcher ID, Scopus Author ID, ORCID, идентификатор автора и SPIN elibrary, научные социальные сети и т. д.);
  • репликацию данных в/из ORCID для обеспечения ученым единой точки для редактирования данных профиля, обеспечения международной видимости;
  • возможность интеграции с внешними системами — импорт публикаций, проектов, РИД, загрузка данных в стандартизованных форматах;
  • программный интерфейс для встраивания в ведомственные и институциональные информационные системы;
  • возможность экспорта данных для внешнего анализа и исследований.

Профиль может быть также расширен данными об участии в подготовке кадров — чтение курсов в вузах, научное руководство студентами, магистрантами, аспирантами; участием в редколлегиях научных журналов и другими данными, характеризующими различные аспекты деятельности ученого.

Данные системы могут быть использованы при подаче заявок на конкурсное финансирование научных исследований разного рода, конкурсы на замещение должностей научных работников, индивидуальной оценке результативности научных исследований, оценке успешности выполнения проектов, схемах индивидуального стимулирования.

Необходимо отметить, что Министерство науки и высшего образования в рамках Федеральной целевой программы «Исследования и разработки» уже поддержало создание информационной системы для регистрации и ведения профилей ученых Science ID, частично отвечающих обозначенным требованиям. К сожалению, разработанная система пока не получила широкого признания, в ней зарегистрировано менее 15 тысяч профилей, при этом большая их часть практически не заполнена. Кроме того, Science ID не поддерживает интеграцию с внешними системами, экспорт данных, доступ к информации через программный интерфейс, что резко сужает возможности ее применения.

Как нужно выстраивать цифровую инфраструктуру науки

Создание национальной инфраструктуры научных коммуникаций по определению не может быть делом одной или нескольких организаций. К его реализации необходимо привлекать не только библиотеки как институты, занимающиеся информационным обеспечением научных исследований. Активными участниками проекта должны быть разработчики государственных информационных систем (таких как Система управления НИР, ЕГИСУ НИОКТР, Информационная система ФЦП «Исследования и разработки»), научные фонды, издательства научной литературы, представители научной общественности (Российская академия наук) и ведущих университетов, профессиональные объединения (такие как Ассоциация научных редакторов и издателей, Национальная ассоциация «Библиотеки будущего»), существующие научные сервисы (eLibrary.ru, КиберЛенинка, НЭИКОН и другие).

Участие столь широкого круга заинтересованных лиц является залогом успешной реализации этого проекта. Фактически нужно говорить о создании консорциума, основной целью которого является формирование новой национальной инфраструктуры научных коммуникаций.

С другой стороны, разнообразный коллектив участников создает организационные сложности для управления в части приоритизации задач, способов их решения и баланса интересов. Считаем, что оптимальным решением будет создание при Минобрнауки РФ межведомственного совета, который будет осуществлять стратегическое управление проектом, ставить задачи перед консорциумом и его участниками, обеспечивать необходимые ресурсы для их выполнения и оценивать итоги работ. Руководить таким советом должен министр науки и высшего образования РФ или его заместитель.

Важно отметить, что представленные предложения находятся в рамках парадигмы открытой науки, которая активно развивается во всем мире. В частности, положения открытой науки еще в 2014 году были заложены в основу Восьмой рамочной программы ЕС по развитию научных исследований и технологий «Horizon-2020». ЮНЕСКО настоятельно рекомендует на государственном уровне создавать благоприятную среду для открытой науки, в том числе путем разработки и реализации соответствующих национальных политик и стратегий.

Cейчас в Российской Федерации отсутствуют стратегические документы, определяющие комплексную политику государства в части открытой науки и систему мероприятий, направленных на ее развитие. Негативными последствиями, вероятно, будут: невысокая прозрачность и уровень доверия к научной информации, сложности в развитии международного научного сотрудничества, низкая видимость результатов российской науки и ослабление ее авторитета. Одной из первых задач для межведомственного совета по национальной инфраструктуре научных коммуникаций должна стать разработка и утверждение национальной стратегии развития открытой науки.

В заключение

Комплекс информационных систем, обеспечивающий регистрацию и уникальную идентификацию (в том числе перекрестную) ученых, организаций, научных проектов, публикаций с открытым доступом к информации (в том числе на основе программных интерфейсов — API), дополненный в необходимых областях мультиязычным контентом, связанный с инфраструктурой хранения и доступа к полным текстам научных публикаций, создает интегрированную в глобальное информационное пространство среду для всестороннего описания российского сектора исследований и разработок.

Такой подход к построению национальной инфраструктуры поддержки научных коммуникаций в значительной степени позволяет решить следующие задачи:

  • упрощение поиска и доступа исследователей к научно-технической информации,
  • цифровизация процессов сбора заявок на научные проекты и подготовки отчетов,
  • представление результатов российской науки за рубежом,
  • создание различных научных сервисов информационного и аналитического характера,
  • автоматизированный обмен данными между государственными и прочими информационными системами, поставщиками, агрегаторами и потребителями научного контента, организациями, выполняющими исследования и разработки, репозиториями, архивами и электронными библиотеками,
  • мониторинг развития национального сектора исследований и разработок.

Этот подход лежит в русле инициатив открытой науки, будет способствовать дальнейшей интеграции российской науки в мировую, повышению видимости и доступности результатов исследований российских ученых, а следовательно, и росту их авторитета в глазах мирового сообщества.

Российское научное сообщество генерирует в различных системах огромное количество полезной информации. Следующий шаг, который нельзя не сделать, — это научиться ею пользоваться и управлять.

Авторы: Денис Косяков, Андрей Гуськов

Автор:Indicator.Ru