В биомедицинских исследованиях широко применяют анализ совокупности всех молекул РНК в образце – транскриптома. При помощи такого анализа можно выявить молекулярные процессы в образце ткани и, например, охарактеризовать тяжесть онкологического заболевания. Однако чтобы понять, что происходит в ткани, нужно уметь отличать данные для разных типов клеток, которые могут содержаться в образце в самых разных, заранее неизвестных пропорциях.
Для решения этой проблемы ученые разрабатывают алгоритмы деконволюции. Это по сути разложение данных, полученных для образца, по разным типам клеток. Такой метод помогает понять, какие клеточные типы и в каком количестве есть в образце, а также как их содержание влияет на транскриптом. Однако существующие алгоритмы не позволяют «опознать» клеточные типы в смешанных образцах без дополнительной информации.
Чтобы решить эту проблему, международная группа ученых из Университета ИТМО и Университета Вашингтона в Сент-Луисе, США, предложила новый метод анализа транскриптома образцов. Он позволяет с высокой точностью определить, какие клеточные типы там есть. В основе метода принцип взаимной линейности генов: уровень активности двух генов, специфичных для одного типа клеток, линейно зависит друг от друга. На основе этого ученые создали модель взаимосвязи генов, анализируя которую можно определить, какие клетки есть в образцах.
Ученые показали, что всем алгоритмам деконволюции свойственна одна неточность: если в образце разные клеточные типы имеют разное количество РНК, все алгоритмы деконволюции допускают ошибку при подсчете пропорций клеток. Чтобы проверить это экспериментально, были выбраны два типа клеток с разным количеством РНК, которые смешивали в разных заданных пропорциях. Затем экспериментаторы при помощи разных алгоритмов деконволюции определяли соотношение клеток.
«Мы увидели, что существующие алгоритмы в таком случае всегда будут ошибаться в количестве клеток, потому что они оценивают количество РНК в образце, а не количество клеток. Но если проводить измерения, добавляя к каждому образцу известное количество искусственной РНК, то предсказанные пропорции клеточных типов можно сделать точнее», – комментирует эксперимент сотрудник Лаборатории компьютерных технологий Университета ИТМО Константин Зайцев.
Как отмечает исследователь, данный подход лучше всего использовать для анализа смешанных образцов, когда информации об их составе не хватает. Методу не нужна дополнительная информация, поэтому он подходит для любых видов тканей.
«Например, в образцах крови можно обнаружить различия в клеточном составе после вакцинации, а используя публичную базу данных TCGA (The Cancer Genome Atlas), мы уже пытаемся идентифицировать клеточные типы, связанные с выживаемостью пациентов в разных типах рака», – добавляет Константин.
Статья: Complete deconvolution of cellular mixtures based on linearity of transcriptional signatures. Konstantin Zaitsev et al. Nature Communications. 17 May 2019