Гуманитарные науки4 мин.

Создана контекстно-зависимая грамматика для генетического кода

© Unsplash

Филолог из БФУ имени И. Канта предложил представлять генетический код как язык с собственным алфавитом, грамматикой и лексикой. Его модель основана на важности контекста: нуклеотиды сами по себе не несут смысла — лишь соединяясь в триплет, который соответствует определенной аминокислоте в белке, они способны передавать информацию. При этом, как и в любом языке, развитие генетического кода происходит по определенным законам, однако в этой работе они обусловлены не биохимией, а лингвистикой. Такой подход поможет иначе взглянуть на исследование наследственного материала и принципов его эволюции. Статья с исследованием была опубликована в журнале Biosystems при поддержке Российского научного фонда (РНФ).

Генетический код — форма записи наследственной информации в живой клетке. Он зашифрован в виде последовательности нуклеотидов: с матрицы ДНК происходит образование информационной РНК, на которой особые клеточные «машины» — рибосомы — синтезируют белки. Последние представляют собой цепочку аминокислот, порядок которых как раз и определяется исходной последовательностью нуклеотидов: их тройки, называемые кодонами, показывают, какая именно аминокислота должна присоединиться к концу наращиваемой рибосомой нити.

«Биохимическое представление и "грамматика" генетического кода известны каждому старшекласснику, однако пока не существует моделей, которые бы учитывали контекст, то есть окружение каждого нуклеотида. Возможно, внешние факторы влияют на генетический код определенным образом и имеют роль информационных явлений, меняющих его "смысл". Ранее я представил возможность его семиотического описания. С этой точки зрения генетический код становится системой знаков, которым определенным образом присваивается значение, совсем как в языке», — рассказывает автор работы Сурен Золян, доктор филологических наук, профессор института гуманитарных наук Балтийского федерального университета имени И. Канта.

Ученый предложил лингвистическую модель генетического кода, основанную на контекстно-зависимой грамматике. Если бы грамматика была контекстно независимой, на каждый триплет приходилось бы множество закодированных аминокислот и его положение не имело бы особенной роли, но в природе дело обстоит иначе. Как и в любой грамматике, есть правила и определенная последовательность. Такой подход позволяет исследовать эволюцию кодировки аминокислот не с позиции биохимии, а с позиции лингвистики. Поскольку родственников у нуклеотидного «языка» нет, то необходимо применить метод внутренней реконструкции: сравнивая разные фрагменты внутри генетического кода, можно попытаться найти повторяющиеся характерные для определенных белков последовательности.

Наряду с описанием биохимического вещества генетического кода можно представить процессы как информационные явления и рассмотреть их как семиотические системы. Был предложен семиопоэзис, то есть такой способ обработки информации, где биомир становится формой организации с заданными понятиями значения и цели. В результате на основе неоднородности и нерегулярности текущего состояния можно попробовать объяснить возможные предыдущие состояния и различные способы формирования кодирования и механизмы текстуализации. С этой точки зрения внешняя среда «вынуждает» клетку синтезировать те или иные белки для определенных целей. Поскольку они закодированы нуклеиновыми кислотами, последовательности ДНК будут соответствующим образом изменяться.

Ученый пришел к выводу, что линейная контекстно-свободная лингвистическая модель для подобной задачи не подходит. Вместо нее можно использовать грамматику, где элементы действуют как контекстно-зависимые переменные и одновременно контекстообразующие операторы (функторы). Естественно, что алфавит включает в себя только четыре элемента — нуклеотиды A (аденин), U (урацил), G (глицин), C (цитозин). Учитывая, что любой нуклеотид может занимать любое положение в триплете, было решено сделать руководящим принципом именно функциональную характеристику нуклеотида, которую он получает при образовании триплета, или кодона, а не его биохимические свойства. Ведь одни и те же элементы в зависимости от контекста выполняют различные функции и кодируют различные аминокислоты.

Нуклеотид становится только одной из категорий, используемых в грамматике генетического кода. Также в нее входят сам триплет, преобразователь нуклеотида в дуплет, преобразователь дуплета в триплет. «Разделами» грамматики, разработанной ученым, можно назвать, например, правила сопоставления положений кодона с нуклеотидами и правила соответствия между кодонами и аминокислотами.

«Изучив "язык" генетического кода, можно будет понимать, как появлялись те или иные структуры — начиная с коротких фрагментов, например сигнальных хвостов, которые показывают, в какую часть клетки должен отправиться белок, и заканчивая сложными белковыми формами, такими, как бета-листы — несколько связанных друг с другом аминокислотных цепей. Последние играют ключевую роль в ряде заболеваний, причины и ход которых до сих пор не ясны, среди них — болезнь Альцгеймера. Зная принципы "языка", порой можно будет обойтись без тавтологий, то есть повторов, при обработке информации, что сэкономит ресурсы и поможет эффективнее решать задачи биоинформатики», — объясняет Сурен Золян.