Сегодня вы известны как специалист в области биоинформатики, однако еще в 2012 году, насколько мне известно, вы защищались по специальности молекулярная биология. Почему вы сделали выбор в пользу биоинформатики? 

Свою кандидатскую диссертацию «Организация больших тандемных повторов в геноме мыши» в 2012 году я действительно защищал по молекулярной биологии под руководством Ольги Подгорной, но так получилось, что она на самом деле была практически полностью посвящена биоинформатике. Дело в том, что к тому времени вопросы анализа геномов уже не могли обойтись без биоинформатики — если ты умеешь программировать, то многие задачи, которые могли занять недели или даже месяцы, занимают всего лишь часы. Ты запрограммировал алгоритм и повторяешь его на новых и новых данных. В Институте цитологии было хорошее комьюнити биоинформатиков-самоучек, и мы все там постепенно овладевали навыками программирования и анализа геномных данных.

Тема, по которой я защищал диссертацию, тогда была новой, туда еще практически никто не лез. Мы изучали ту часть генома, которую практически не удается собрать, это центромеры, теломеры. То есть у нас есть такие кусочки ДНК, которые в расшифровке генома не находят места, а при анализе хромосом экспериментальными методами мы видим, что они там есть, но где именно — непонятно. Мне стало интересно, что же находится в той части генома, которую мы не можем собрать, ведь мы не знали точно, даже где, в какой хромосоме эти кусочки, или в какой части хромосомы. При сборке генома такие кусочки помещают в искусственную хромосому — Chromosome Unknown.  

Для этой цели я написал программу, которая анализирует эти фрагменты, я назвал ее «CHRUNTA» (ChrUn, от Chromosome unknown, Tandem Analyser) — такая игра слов, не мог удержаться, всегда хочется поиграть с разным прочтением в разных языках, чтобы наши поняли шутку, а специалисты в других странах думали, что это обычное название. При помощи программы мы нашли много тандемных повторов в геноме мыши, которых раньше никто не знал. Хотя ответы получены не все — мы, к примеру, до сих пор не знаем точно, за что эти участки ДНК отвечают.

А ведь такие данные нужны, скажем, для создания искусственной хромосомы — такие эксперименты проводят в Японии и в США. Это открывает невероятные горизонты, но пока ее не получается сделать стабильной, в том числе из-за недостатка данных об устройстве таких ключевых районов, как центромеры.

Почему вы приняли решение присоединиться к команде Университета ИТМО? 

После защиты диссертации я еще некоторое время проработал в Институте Цитологии, потом, в 2013 году, в Петербурге появилось два мегагранта, один из них под руководством Стива О’Брайена. Я работал под его руководством с 2013 по 2018 год. 

В 2019 году меня привели сюда, в Университет ИТМО, знакомые. Они рассказали, что здесь создана классная лаборатория SCAMT, что здесь много возможностей, молодой коллектив, много студентов, интересно. Здесь нужен был человек для анализа геномных данных больных сердечно-сосудистыми заболеваниями. Здесь и правда самое живое место в Петербурге — все что-то делают.

Кроме того, мне всегда очень нравились междисциплинарные исследования, у меня было много ответвлений в карьере: я успел поработать и в искусственном интеллекте, и в машинном обучении, в анализе текстов, да и просто программистом. Когда я пришел сюда, то сразу стали намечаться коллаборации с разными группами химиков.  

В общем, мне дали восемь магистрантов, которых мы теперь и учим биоинформатике. Параллельно мы работаем над разными проектами: и теми, которые я начал еще до прихода в ИТМО, и теми, что начались уже здесь. 

Лаборатория SCAMT. Фото: ITMO.NEWS

Лаборатория SCAMT. Фото: ITMO.NEWS

Недавно один из этих проектов получил грант от РФФИ. Не могли бы вы рассказать об этом проекте?

Мы получили сообщение о том, что выиграли грант, 30 декабря 2019 года. Проект посвящен геномике куньих. Это очень классные животные, ультимативные хищники. Можете найти на YouTube ролики, где горностай играет с котом, и у кота даже не хватает реакции за ним уследить.

Группа куньих интересна тем, что их геномы практически не секвенированы. Вот кошачьи, к примеру, очень активно изучены, они, можно сказать, поделены между учеными мира, и открыть что-то у них достаточно сложно. А вот по куньим остались белые пятна. 

Мы возьмем такие виды, как соболь, харза, каменная куница, колонок, вьетнамская ласка. Эти образцы нам будет сравнительно легко достать. В первый год у нас будет изучение харзы, такие животные с желто-зеленой грудкой. Во многих местах в России она находится в региональных красных книгах. Мы сотрудничаем с Алексеем Абрамовым из Института зоологии РАН и цитогенетиками под руководствоем Александра Графодатского из Института молекулярной и клеточной биологии в Новосибирске. Алексей Абрамов ездит в экспедиции, он специалист по куньим, он сможет собирать образцы. А коллеги из Новосибирска лучше всех в мире делают кариотипы. Это, кстати, стало преимуществом нашей заявки.

А как будут проходить исследования?

Мы получаем ДНК, секвенируем, собираем геном и аннотируем. Что это значит? Есть хорошая аналогия — возьмите несколько изданий полного собрания сочинений В.И. Ленина так, чтобы каждого тома было по несколько штук. Теперь разрежьте каждую страницу на кусочки где-то по сто букв, тщательно перемещайте и помните, чтобы часть типографской краски затерлась. Затем вам нужно будет собрать из этих кусочков издание целиком обратно и проанализировать про что там написано. Вот это мы и делаем.

Секвенирование — первый этап, это, собственно, нарезка этих фрагментов и их чтение, буква за буквой. Полностью прочитать геном мы сразу не можем, именно для этого нам надо брать маленькие фрагменты. Сейчас наилучшие результаты дает чтение маленьких кусочков по 150 – 300 нуклеотидов. Всего в геноме куницы где-то 2,3 – 2,4 миллиарда нуклеотидов. Именно поэтому биоинформатика играет такую роль — вручную такой объем просто не получится собрать. Еще когда все это зарождалось, когда собирали геномы бактерий, это можно было сделать в Word или в Exсel за месяц. Но геном куньих уже требует весьма хитрых алгоритмов и программ-сборщиков.

Есть такие методы, как PacBio и Oxford Nanopore, которые позволяют читать фрагменты большего размера. Первый намного дороже, но дает более качественный результат, второй дешевле и прочтения значительно длиннее, но ошибок в чтении генома больше. Однако оба метода дают большое количество ошибок, и приходится много раз ДНК прогонять через них, чтобы от этих ошибок избавиться, из-за этого такие исследования очень дорогие.

Наконец, еще один метод прочтения фрагментов — это метод связанных прочтений. То есть молекулу мы читаем не сразу всю, а только небольшую часть кусочков из каждой молекулы ДНК, но точно знаем, из какой молекулы ДНК какой кусочек. И вот этот хитрый трюк помог значительно лучше собирать геномы. В нашей работе мы будем использовать все три метода.

Второй этап — это сборка: когда мы выделили наши фрагменты и прочитали их, их нужно собрать обратно в собрание сочинений. Однако сегодня мы можем собрать их даже не в целые книги, то есть хромосомы, а в лучшем случае в отдельные главы, то есть в части хромосом. Методы, даже самые лучшие, несовершенны, и самые лучшие сборки напоминают швейцарский сыр — там много пустых мест (gaps), в которых мы не знаем, что находится. Последний этап — аннотирование: мы пытаемся найти белок кодирующие гены, повторы, регуляторные элементы.

В работе с геномикой животных сейчас самое важное — поймать животное и качественно выделить ДНК. От того, как ты его выделишь, зависят все последующие этапы. Если ошибка закралась на получении образцов, то все последующие этапы, о которых я рассказал выше, будут накапливать количество ошибок.

А что вы хотите узнать в ходе этого исследования?

Например, с помощью этих данных мы сможем узнать структуру популяций, сможем восстановить ее демографическую историю — какой размер популяции был раньше, как он менялся. К примеру, соболя к середине XX века в Сибири практически истребили охотники. Потом, в 1960-е годы, зверьков заново запустили в тайгу, и популяция быстро размножилась. Сейчас важно узнать, что случилось при этом с их геномом. Тут налицо классическая ситуация бутылочного горлышка — то есть у нас было большое многообразие генов, потом популяция уменьшилась резко, и не все вариации ДНК в ней остались. Потом популяция снова резко выросла, и интересно посмотреть, какой след это оставило.   

Если говорить о более фундаментальных задачах, интересно посмотреть, какие гены делают куньих хищниками. Как я говорил, это очень быстрые, ловкие животные, настоящие ультимативные хищники, намного опаснее кошачьих при прочих равных. У некоторых видов куньих есть задержка имплантации, когда оплодотворение отделено во времени от дальнейшего развития эмбриона — такой вот феномен, но не известно, как оно происходит на уровне генома. Мы попытаемся пролить свет на это.

Остается загадкой также и видообразование, почему у разных видов разное количество хромосом. Есть много загадок, которым по сорок лет уже, и никто не может на них ответить.

Лаборатория SCAMT. Фото: ITMO.NEWS

Лаборатория SCAMT. Фото: ITMO.NEWS

Какими проектами вы занимаетесь помимо этого?

Сейчас стартовал очень интересный проект о геноме миноги. Мы делаем его совместно с Лабораторией биологии синапсов (Институт трансляционной биомедицины, СПбГУ). Минога в Петербурге почти как корюшка, наш родной вид, в сезон ее активно продают на рынках. Но это еще и очень важный вид животных для изучения физиологии.

Дело в том, что у нее очень большие нейроны, и на их примере очень удобно изучать строение нейронов, их работу в принципе. Однако ряд исследований ограничен тем, что у нас нет генома речной миноги. Сейчас появился метод, позволяющий увидеть, что транскрибируется в каждой конкретной клетке — single cell RNA-seq. Это даст революционные данные о работе нервной системы в целом и особенно ее регенерации. Но чтобы провести этот анализ для миноги, нам нужен ее геном. 

Эти результаты помогут нам в изучении разных заболеваний нервной системы — от болезни Альцгеймера и до механических травм позвоночника. Дело в том, что у людей много консервативных генов с разными животными. Когда мы находим такие консервативные связи, мы можем использовать животный материал для многих модельных экспериментов, чтобы не расходовать редкий материал, полученный от человека.  Животные дают хорошие подсказки: так, например, кошки — идеальная модель для изучения иммунной системы человека, у нас похожая иммунная система.

Кроме того, при ближайшем рассмотрении оказалось, что у миноги очень сложный геном. А это мой главный научный интерес — геномы, с которыми, грубо говоря, что-то не так, которые сложно собрать. Так, у миног размер генома в половых клетках и соматических — разный. Как это происходит, мы не до конца понимаем.

Помимо этого мы работаем с беспозвоночными животными. Это вообще мир чудес — куда ни ткнешь, там все интересно. Геномы беспозвоночных — это вызов, не знаешь, как к этому подойти. Вообще в геномной биоинформатике сейчас много областей, где легко выйти в ту область, где вообще никто никогда не был. Это и есть кайф науки.

Например, сейчас у нас есть геном моллюска, который в английском языке называется Clam, такие белые моллюски, которых можно встретить на любом рынке Европы. У них тоже «прыгает» размер генома, и мы не понимаем почему. У них есть к тому же и материнские, и отцовские митохондриальные ДНК. У нас обычно они передаются только по материнской линии, а у этих и отцовский, и материнский. Также мы хотим начать биоинформатическую работу с комарами, передающими разные вирусные заболевания. У меня была статья про них, и теперь хочется вернуться к этой теме.

Есть много вирусов, которые переносят комары — это и Зика, и Денгу. Сейчас теплеет, более простая миграция из зон, где есть не только малярия, но и разные вирусы. Как нам бороться с этими заболеваниями, если мы не понимаем до конца устройство генома комаров? Ведь мы не можем и не хотим просто убить весь вид — он участвует в пищевых цепочках.

Также у вас в планах работа с Мариинской больницей. А в чем она будет заключаться? 

У нас начат большой проект по кардиологии. Мы активно работаем с Мариинской больницей — занимаемся анализом геномных и фенотипических данных. Мы ищем, какие сочетания генов и фенотипов связаны с риском различных кардиологических заболеваний.

Сейчас такая ситуация, что для большинства болезней мы знаем корреляции с какими-то генами, геномными парами и так далее. Однако корреляция дело такое — может так совпасть, что количество проданного мороженого коррелирует с количеством нападений акул. Мы хотим уйти от этого и перейти к объяснению того, как это работает.  

Сейчас есть разделение между последовательностями, которые мы находим в ДНК, и аннотацией. Мы хотим свести их в одну структуру. Мы хотим сделать так, что мы могли ткнуть в любое место генома и сказать: вот это место отвечает за это. Таких мест, на которые мы сейчас можем ткнуть, обидно мало даже в геноме человека.