На планете Земля обитают миллионы биологических видов ― это огромное разнообразие заложено на генетическом уровне. Анатомия, размер, окрас, образ жизни животных определяются их генами. Между тем, вариативность самих генов заметно меньше ― их, как посчитали ученые, более 20 тысяч.
Получается, что два вида отличаются друг от друга не только набором генов, но и тем, как они расположены друг относительно друга. На языке сравнительной геномики это называется синтения, то есть порядок расположения генов и регуляторных элементов.
«Возьмем, к примеру, гориллу и шимпанзе. Эти два вида имеют одинаковый набор генов, но элементы их регуляции и перестройки генома создают немного разный порядок, что приводит к отличиям между этими приматами», ― приводит пример инженер-исследователь Университета ИТМО Ксения Крашенинникова.
Таким образом, чтобы понять, насколько два вида эволюционно близки друг к другу, ученым нужно знать не только какие именно у них гены, но и то, как эти гены располагаются в хромосоме, много ли у животных общих фрагментов генома.
«Последовательности генов, которые сохраняют свой порядок у различных видов, называются синтенными блоками», ― добавляет Ксения Крашенинникова.
В поисках нового инструмента
Обнаружение таких синтенных блоков является очень важной задачей для генетиков, оно позволяет лучше понимать механизм эволюции, видообразования. Однако искать такие общие участки вручную невозможно ― слишком большой объем данных. Геномы млекопитающих состоят из миллионов и миллиардов пар оснований ― освоить такой объем без технологии обработки больших данных практически невозможно.
Однако найти подходящий программный инструмент для обработки этих данных не всегда просто: некоторые алгоритмы работают очень медленно, другие не распознают целый ряд форматов хранения данных, третьи и вовсе уже не могут справиться с современными задачами.
«Геномика постоянно развивается, качество сборок геномов растет. Некоторые старые, хорошо зарекомендовавшие программы уже не работают на тех объемах данных, которые мы получаем сейчас, они просто не рассчитаны на такие данные», ― рассказывает Ксения Крашенинникова.
Поэтому ученые создают свои программы, которые позволяют решать новый класс задач, возникших в ходе развития науки. Именно это сделала группа ученых, в которую вошли сотрудники Научно-образовательного центра геномного разнообразия Университета ИТМО.
Сравнивая кошку с собакой
Разработка ученых получила название «halSynteny». Как утверждают ее создатели, она справляется с поиском синтенных блоков быстрее и лучше, нежели другие программы, созданные для этой цели. При этом программа принимает данные сразу в двух стандартных и хорошо документированных форматах.
«Нашей целью было написать алгоритм, который было бы легко применить к доступным данным, ― рассказывает Ксения Крашенинникова, которая является первым автором научной работы. ― Некоторые подходы к поиску синтенных последовательностей основываются на предварительной аннотации генов, наш метод работает немного иначе. Мы не используем дополнительную аннотацию. Мы используем метод выравнивания, то есть разные участки одного генома сопоставляются по степени похожести с участками другого генома. Таким образом мы можем выделить гомологичные участки, то есть обладающие одним и тем же происхождением».
Программа позволяет ускорить вычисления более чем в два раза по сравнению с другим популярным методом SatsumaSynteny2. Высокая производительность была достигнута с помощью реализации на языке C++ математически эффективного алгоритма.
Предложенный метод и программа были опробованы при сравнении геномов кошки и собаки.
«Мы показали, что крупные фрагменты хромосом кошки и какие-то фрагменты хромосом собаки объединяются в синтенные блоки, то есть они произошли от одних и тех же хромосом общего предка. На этой основе уже можно делать выводы о том, как происходил эволюционный процесс. Предыдущие исследования в области "мокрой" биологии показали, что кошки по сравнению с общим предком хищных имеют менее перестроенный геном, нежели собаки. Это видно в сравнении с другими видами, не относящимися к отряду хищных. Результаты, полученные в нашем исследовании подтверждают и уточняют эти выводы. То есть мы видим, что в конкретном месте геном кошки и видов, взятых для сравнения, похож, а у собак перестроен», ― говорит первый автор работы, опубликованной в Giga Science.
В дальнейшем данный алгоритм будет использоваться и в других исследованиях по сравнительной геномике, проходящих в Университете ИТМО.
Статья: Ksenia Krasheninnikova, Mark Diekhans, Joel Armstrong, Aleksei Dievskii, Benedict Paten, Stephen O’Brien. halSynteny: a fast, easy-to-use conserved synteny block construction method for multiple whole-genome alignments. GigaScience, 2020/10.1093/gigascience/giaa047