В основе метода лежит представление о геномных последовательностях как о наборе всех встречающихся в нем нуклеотидных «слов», k-меров, где k — длина сочетания нуклеотидов A, T, G, C. Различие наборов всех имеющихся в отдельных организмах k-меров обусловлено уникальным сочетанием информации в каждом организме или среде. В свою очередь, сочетание геномов организмов и генома их носителя представляет собой единый метагеном, что дает возможность судить о различиях в бактериальном составе при сравнении образцов между собой.
Чтобы обработать последовательности нуклеотидов, в секвенаторы загружается биологический материал, где он обрабатывается. По итогу секвенирования исследователи получают большое количество данных о последовательностях нуклеотидов. Когда секвенатор «раскладывает» последовательности нуклеотидов не одного организма, а метагенома некоторой среды (содержимого кишечника, полости рта, морской воды, нефти и т. д.), то в нем оказывается информация из разных источников — от бактерии до человеческого генома, которую необходимо упорядочить. Чтобы подсчет нуклеотидов разной длины был быстрым, а их последовательности можно было без затруднений упорядочить и сравнить, нужно было создать соответствующую программу. Для этого было инициировано междисциплинарное сотрудничество: два года назад сотрудник Университета ИТМО Владимир Ульянцев поехал на стажировку в Москву. Программист хорошо сработался с биологами, создав работающую программу для подсчета k-меров и их спектра.
«Такой анализ обусловлен, прежде всего, развитием персонализированной медицины. Он поможет понять, какие препараты подходят тому или иному человеку. Сейчас применение таких подходов ограничено финансовыми возможностями: исследование одного генома или метагенома стоит более тысячи долларов, что из-за растущего курса валют весьма недешево. Поможет разработка и в геологических исследованиях, например, анализе почвы или добыче нефти — для определения качества, состава сырья. В-третьих, с помощью такого метода удобно исследовать новые бактерии. Если мы встречаем новые геномные последовательности в закрытых антарктических озерах, пещерах и прочих укромных уголках мира, мы можем пролить свет даже на новые эволюционные события», — отмечает Владимир Ульянцев.
Обычно в метагеномном анализе сопоставляют образцы на основе процентных долей каждого найденного микробного вида (так называемого таксонометрического состава). Чтобы узнать состав образца, его последовательности сопоставляют с базой известных бактериальных геномов, называемых референсным набором. Однако не для всех организмов в принципе существуют собранные референсные геномы — правило не распространяется на вирусы, например. Поэтому та часть последовательностей образца, для которой не найдено соответствие с базой известных геномов бактерий, не учитывается в процессе анализа. Это происходит даже несмотря на то, что она может содержать немало информации и обладать большой значимостью. В свою очередь, метод, основанный на сопоставлении частот k-меров, не требует обращения к референсным наборам и наличия данных об исследуемых организмах, и поэтому анализу подвергаются уже все последовательности образца, что может предоставить более точные результаты.
Статья: «Assessment of k-mer spectrum applicability for metagenomic dissimilarity analysis». BMC Bioinformatics. DOI: 10.1186/s12859−015−0875−7