Systems Biology Program ежегодно отбирает пять молодых ученых до 35 лет, занимающихся исследованиями в области системной, молекулярной, клеточной биологии, биоинформатических алгоритмов и методов сравнительной биоинформатики, геномных исследований и так далее. Стипендия выдается с 2016 года, ее главная цель — поддержка и стимулирование исследований в области системной, молекулярной и клеточной биологии в России.

Екатерина Носкова стала третьим ученым из ИТМО, чья работа была высоко оценена экспертным советом стипендиальной программы. Так, в разные годы ее лауреатами становились Алексей Сергушичев и Константин Зайцев

Демографические истории

Екатерина Носкова получила грант в 600 тысяч рублей (с возможностью продления стипендии на второй и третий годы) на разработку программы для построения демографической истории популяций — как человеческих, так и животных. Программа GADMA (Genetic Algorithm for Demographic Model Analysis) умеет реконструировать историю эволюции одновременно для трех популяций и может использоваться для проведения исследований методом, основанным на анализе аллель-частотного спектра.

«Демографическая история популяции включает данные об эволюции вида, как менялись популяции во времени, какие миграции происходили, был ли отбор и насколько сильный. По геномным данным можно пытаться эти истории реконструировать и узнать, например, когда возник разрыв между популяциями различных континентов. В случае людей, можно узнать, что 150 тысяч лет назад люди вышли из Африки», — объясняет Екатерина Носкова.

Иллюстрация из статьи Екатерины Носковой с коллегами в журнале GigaScience. Источник: academic.oup.com

Иллюстрация из статьи Екатерины Носковой с коллегами в журнале GigaScience. Источник: academic.oup.com

Сейчас для построения демографических историй по данным аллель-частотного спектра используются два популярных симулятора: dadi и moments. У обоих есть определенные ограничения: они основаны на математической модели, которая предполагает непересекающиеся поколения, и в целом выдают не такие точные результаты. Интерфейс же GADMA позволяет исследователю переключаться между двумя симуляторами — и брать лучшее от обоих.

«Один из наиболее часто применяемых методов для симуляции — dadi — использует так называемый аллель-частотный спектр. Это генетические данные, просто представленные в упрощенном виде, — матрицы. Ведь с полными геномами работать очень тяжело: они содержат слишком много информации.

Разработанная мною программа предоставляет выбор из двух симуляторов, работающих с данными аллель-частотного спектра, а еще она имеет алгоритм, который автоматически выбирает ту модель, которая с наибольшей вероятностью подходит для данных, имеющихся у исследователя. То есть он перебирает и сравнивает симуляции с настоящими результатами и выдает вероятность того, насколько симуляция правдоподобна», — поясняет Екатерина.

Как это работает

Например, у исследователя есть генетические данные по гепардам. Он может по этим геномам построить какое-то упрощение — аллель-частотный спектр или другие статистики, например, по гаплотипам. Далее у него есть выбор: он может взять одно из уже готовых программных решений вроде dadi или moments. При этом ему надо разобраться, как работает каждая из программ. А еще неизбежно столкнуться с тем, что алгоритм оптимизации в этих программах может оказаться неэффективным и дать не то, что нужно.

Иллюстрация из статьи Екатерины Носковой с коллегами в журнале GigaScience. Источник: academic.oup.com

Иллюстрация из статьи Екатерины Носковой с коллегами в журнале GigaScience. Источник: academic.oup.com

При работе же в GADMA все происходит в полуавтоматическом режиме: пользователю лишь нужно выбрать, какой из симуляторов он будет использовать, загрузить в программу данные — и получить на выходе готовую демографическую историю, а также ее визуализацию и сгенерированный код. При этом разбираться, как работают симуляторы, уже не нужно, а разработанный авторами алгоритм оптимизации гораздо более точен, эффективен и выдает более стабильные и реалистичные результаты.

В планах разработчиков — полностью автоматизировать процесс подбора, расширить функционал программы и добавить еще один из популярных симуляторов, который завязан на аллель-частотном спектре — fastsimcoal2 или momi2. Также разработчики планируют интегрировать в программу симуляторы, работающие уже не с аллель-частотным спектром, а с гаплотипами (например, diCal2) — они умеют работать с большим количеством данных, но при этом гораздо более медленные. По задумке авторов, комбинация быстрых методов симуляций с более точными может дать весьма интересный конечный результат.

Иллюстрация из статьи Екатерины Носковой с коллегами в журнале GigaScience. Источник: academic.oup.com

Иллюстрация из статьи Екатерины Носковой с коллегами в журнале GigaScience. Источник: academic.oup.com

История создания и план реализации гранта

Как рассказывает Екатерина, проект GADMA она начала еще в 2017 году во время обучения в магистратуре в Санкт-Петербургском Академическом университете на алгоритмической биоинформатике. Идея и первый прототип родились во время хакатона BioHack — в задачу команды, куда вошла Екатерина, нужно было вывести демографическую историю гепардов с помощью симулятора dadi:

«Мы заметили, что перебор моделей в dadi работает не очень хорошо, и прямо на хакатоне я написала новый алгоритм оптимизации – просто посмотреть, не будет ли он работать лучше. Оказалось, что действительно, алгоритм весьма эффективен, поэтому я продолжила работать над проектом — написала по нему магистерскую, затем пошла на стажировку в лабораторию «Компьютерные технологии» в ИТМО. И вот уже несколько лет мы занимаемся разработкой программы вместе с Владимиром Ульянцевым и Павлом Добрыниным. В начале 2020 мы опубликовали статью про первую версию в журнале GigaScience».

Екатерина Носкова с командой на хакатоне BioHack-2017

Екатерина Носкова с командой на хакатоне BioHack-2017

Как признается Екатерина, заявку на участие в Systems Biology Fellowship она подавала еще в прошлом году — но тогда выиграть ее не удалось. В этот раз она усилила заявку публикацией, провела дополнительные исследования и составила более тщательный план разработки на ближайшие три года.

Программа «Сколтеха» по системной биологии рассчитана на три года – общая сумма стипендии таким образом будет составлять 1 800 тысяч рублей. При этом отчитываться о тратах не нужно, но необходимо каждый год готовить научный доклад о проделанной работе на ежегодных семинарах Сколтеха, организуемых специально для стипендиатов программы. Финальный же отчет о трехгодичной работе будет представлен на площадке научно-исследовательского центра «Филип Моррис Интернэшнл» в Невшателе, Швейцария.

Также все стипендиаты этого года выступят на Московской конференции по вычислительной молекулярной биологии (MCCMB), которая пройдет с 30 июля по 3 августа на базе «Сколково».