GWAS и его недостатки

Метод поиска полногеномных ассоциаций (GWAS) позволил накопить значительный массив отдельных ДНК-вариантов, ассоциированных с риском развития заболеваний. Однако он не дает представление о конкретных генах, нарушение функции которых становится причиной «поломки» в организме. Дело в том, что благодаря использованию GWAS можно получить результат, ограниченный возможностями технологии микрочипового генотипирования ― он позволяет лишь уточнить участки генома (локусы), которые ассоциированы с заболеванием. Но эти участки могут включать десятки генов, из которых только один или несколько действительно связаны с болезнью, поэтому использовать такой метод в разработке тех или иных медицинских решений довольно трудно.

Чтобы получать более конкретные и точные результаты, ученые всего мира разрабатывают методы постпроцессинга информации, полученной от GWAS. Но сложность в том, что исследователям приходится работать с очень большим массивом неизвестных данных ― не понятно, на какие из генов в ассоциированных геномных локусах нужно обратить внимание, а какие ― проигнорировать.

Манхэттенский график, изображающий некоторые тесно связанные локусы риска. Каждая точка представляет собой однонуклеотидный полиморфизм, расположение которого в геноме показано на оси Х, а на оси Y показан уровень ассоциации. Пример взят из исследований полногеномных ассоциаций для нарушений микроциркуляции в сосудах. Источник: M. Kamran Ikram / wikipedia.org (CC BY 2.5)

Манхэттенский график, изображающий некоторые тесно связанные локусы риска. Каждая точка представляет собой однонуклеотидный полиморфизм, расположение которого в геноме показано на оси Х, а на оси Y показан уровень ассоциации. Пример взят из исследований полногеномных ассоциаций для нарушений микроциркуляции в сосудах. Источник: M. Kamran Ikram / wikipedia.org (CC BY 2.5)

Сотрудники Центра геномного разнообразия ИТМО совместно с НЦМУ «Персонализированной медицины» разработали собственный подход к решению проблемы. GPrior ― это инструмент на основе машинного обучения, который помогает приоритезировать гены, связанные с риском заболевания. В архитектуре инструмента используется нестандартный метод ― positive unlabeled learning. Его отличительной особенностью является возможность обучения модели только на положительных примерах.

«В большинстве случаев сложно с уверенностью говорить о том, что один какой-то ген в большом множестве не отвечает за развитие фенотипа. Когда мы работаем с данными GWAS, мы имеем дело с ограниченным числом положительных примеров (генов, роль которых в развитии фенотипа мы точно знаем) и большим количеством генов, про которые ничего нельзя сказать конкретно (то есть они скрыто-положительные или скрыто-отрицательные). Задача нашего алгоритма состоит в разгадывании этого ребуса ― мы стремимся разметить все эти неизвестные данные», ― рассказывает Никита Колосов, автор исследования, сотрудник Международной лаборатории «Компьютерные технологии», программист Центра геномного разнообразия и НЦМУ «Персонализированной медицины».

Отделить зёрна от плевел

Но как научить компьютерный алгоритм понимать, что важно в множестве данных? В классическом подходе к классификаторам машинного обучения (например, если алгоритм тренируют на распознавание опухоли по фотографии) для обучения модели используется множество положительных примеров (фотографий, на которых опухоль точно есть) и множество отрицательных примеров (фотографий, на которых опухоли точно нет). Для генетической приоритезации этот способ не подходит ― здесь слишком много неразмеченных и неустановленных данных на входе.

Поэтому ученые пошли по другому пути: они используют целых пять классификаторов, которые последовательно анализируют сет данных и позволяют «навесить» на каждый ген в сете функциональную аннотацию. При этом используются два типа признаков, которые сами авторы назвали SNP-level и gene-level. На уровне SNP (от английского Single Nucleotide Polymorphism) исследуются очень схожие цепочки нуклеотидов на гомологичном участке хромосом. На более высоком, генном, уровне функциональные аннотации присваиваются уже самим генам ― это позволяет создать некую таблицу со всеми генами и их функциями.

Схема работы алгоритма GPrior. Источник: изображение из статьи / www.nature.com

Схема работы алгоритма GPrior. Источник: изображение из статьи / www.nature.com

«Мы берем результаты полногеномного поиска ассоциаций и те варианты, которые скоррелированы с тем или иным фенотипом (например заболевания), а затем соединяем с определенными генами посредством присвоения разных функциональных аннотаций. Для генов мы используем дополнительные аннотации, например уровень экспрессии в какой-то ткани (почках, печени и так далее). И потом на основании этих признаков мы приоритезируем все эти исследуемые гены. В итоге получается список, который говорит о том, какие гены вероятнее всего потенциально ответственны за развитие этого фенотипа», ― объясняет Никита Колосов.

Универсальный ансамбль

Как подчеркивают авторы работы, предлагаемый ими метод не только демонстрирует высокую эффективность, но и является гибким универсальным инструментом, который позволяет индивидуально подходить к каждому новому набору данных. Именно потому, что в его основе ― ансамбль из пяти классификаторов, которые последовательно анализируют множество данных.

Разработанная учеными программа находится в открытом доступе ― ею может пользоваться любой исследователь из любой точки мира. Разработчики планируют заниматься непрерывной поддержкой алгоритма и его дальнейшим улучшением.

Но в целом, подчеркивают авторы, пока что удовлетворительного решения такой сложной задачи, как поиск риск-генов для полигенных заболеваний, нет. Ученым все еще приходится сталкиваться с большим количеством специфических проблем.

Никита Колосов. Фото: Екатерина Шевырёва / ITMO.NEWS

Никита Колосов. Фото: Екатерина Шевырёва / ITMO.NEWS

По словам Никиты Колосова, шаг от полногеномного поиска ассоциаций к конкретным генетическим элементам, которые потенциально ответственны за развитие заболевания, сам по себе весьма нетривиален. Но это важная задача, ведь, зная генетические причины болезни, можно выработать и эффективные фармацевтические решения.

«Понять генетическую структуру и определить ту совокупность генов, из-за которой развивается заболевание ― это было бы прорывным открытием, ― рассуждает исследователь. ― Ведь многие полигенные болезни ― шизофрения или коронарная болезнь сердца ― обусловлены совместным эффектом мутаций в большом количестве генов, которые между собой как-то взаимодействуют. Деконструирование таких сложных признаков, выявление их генетических причин ― это важный момент для медицины. Совместная работа ведущих геномных и биоинформатических центров, таких как ИТМО, НЦМУ "Персонализрованной медицины", Института Броада, в нашем случае ― ключ для создания эффективных решений».

Подробнее об исследовании: Nikita Kolosov, Mark J. Daly, Mykyta Artomov. Prioritization of disease genes from GWAS using ensemble based positive-unlabeled learning. European Journal of Human Genetics, 29, 1527–1535 (2021).

Перейти к содержанию