Профессор Медицинской школы Гарварда Петр Харченко: Чтобы действительно понять, как работают клетки, нужно подходить к задаче статистически

Петр Харченко — один из ведущих специалистов в области транскриптомных исследований. Исследователь получил степень PhD в области биофизики в Гарвардском университете, где работал под руководством Джорджа Черча (George Church), известного генетика и молекулярного инженера, руководителя проекта Personal Genome и популяризатора науки. Сегодня Петр Харченко возглавляет лабораторию в Медицинской школе Гарварда. В декабре ученый выступил с открытой лекцией в Университете ИТМО. А в интервью ITMO.NEWS он рассказал, как вычисления и статистические методы позволяют узнать больше о работе клеток и чем именно такая работа может помочь диагностике заболеваний.

Говоря об исследованиях, которые проводит ваша лаборатория, вы отметили, что вы занимаетесь созданием вычислительных систем для исследования клеток. Расскажите подробнее, как строится эта работа? И как, по сути, математика и построение моделей может привести нас к конечной цели многих из этих исследований, а именно — диагностике различных заболеваний?

Можно привести ряд примеров, как люди изучают заболевания, используя такие методы. И в течение лекции я попытался немного осветить этот вопрос. Но в целом хочу отметить, что мы решаем более общие задачи и пытаемся понять, как работают клетки.

Это очень сложные системы, состоящие из безумного количества компонентов. Например, даже на уровне генов только транскриптов (транскрипт — молекула РНК, образующаяся в результате транскрипции (гена или участка ДНК) — прим.ред.), которые мы замеряли, больше 10 000, это самые популярные. Еще больше разновидностей белков и так далее.

Всю эту систему, учитывая ее комбинаторную сложность, нам никогда не охватить. Поэтому цель нашего анализа — понять конкретные аспекты: комбинации каких-то молекул, комбинаторные состояния, подписи, которые важны. То есть определить то, что функционально отличает одни виды клеток от других – например, клетки, которые работают правильно и неправильно. Чтобы понять эту систему, нам нужно подходить к ней как к статистической задаче. Иначе это не сработает. Каждая индивидуальная клетка чем-то отлична от другой. В этих различиях есть много «шума», который необходимо игнорировать, выделяя при этом вещи, которые важны. Именно поэтому интерпретация биологии на клеточном уровне должна быть статистической.

Я не говорю, что такие модели уже существуют, на самом деле мы еще далеки от этого. Но способы измерения одиночных клеток приближают нас на шаг к такому пониманию. Мы видим именно шумное разнообразие состояния клеток и как раз из этого можно понять, что на самом деле важно.

Как это выглядит на практике?

Допустим, вам нужно понять, какой клеточный тип в мозге был наиболее подвержен изменениям при шизофрении. Типов нейронов в мозге как минимум сотня, поэтому докопаться до того подтипа, который был наиболее изменен, весьма нелегко. Что мы делаем? Мы замеряем комплексные состояния сотни тысяч индивидуальных клеток и анализом пытаемся понять, какой из подтипов этих нейронов изменился в большей степени.

Открытая лекция Петра Харченко в Университете ИТМО

Для этого, безусловно, нужно какое-то практическое решение, которое будет анализировать имеющуюся у нас массу данных — нормализовать, приоретизировать их, чтобы в конечном счете вывести статистически достоверные изменения, на которые можно смотреть дальше. Следующий, более детальный уровень: если вы смотрите на какую-то конкретную болезнь и видите там эти изменения, вам хочется понять, функционально через какие гены эти изменения возникли или какие сигналы могли приводить к изменениям. Сигналы, особенно внешние, здесь, наверное, наиболее интересны, поскольку прервать их и манипулировать ими значительно легче, чем внутренними состояниями клетки.

Таким образом, сейчас и мы, и другие группы пытаются разрабатывать методы, которые позволят нам сказать, куда смотреть дальше. В целом это можно назвать своего рода микроскопом, который дает очень богатую, красочную картину. Посмотрев на нее, можно попытаться догадаться, в каком направлении двигаться дальше. Но сам по себе метод, конечно, не дает исчерпывающий ответ и не является прямым методом диагностики и лечения.

Также вы отметили, что уделяете большое значение визуализации данных, чтобы в дальнейшем ваши модели могли эффективно использовать другие специалисты. Как выстроен этот процесс?

Могу рассказать, как это работало у нас на протяжении порядка пяти лет. Мы очень плотно сотрудничали с экспериментальными группами и планировали совместные эксперименты. При анализе данных мы берем на себя изначальную статистическую обработку, но потом, чтобы показать, что в этих данных самое значимое, самое статистически важное, необходимо это визуализировать.

Визуализировать результаты, полученные по итогам анализа такого количества клеток, конечно, нелегко. Поэтому для этого нам приходилось писать специальные программы, чтобы биологи и даже мы сами без особых трудов могли понять, где при болезни конкретно происходят какие-то изменения. Эта работа занимает довольно много времени, но при этом результат можно использовать снова и снова. И этими результатами теперь пользуемся не только мы, но и многие другие группы.

В последнее время вы реализовали ряд проектов, которые посвящены в том числе исследованию раковых заболеваний. Насколько в целом широк спектр тематик, которые вы охватываете?

Наверное, половина наших проектов действительно посвящена исследованию раковых заболеваний — это, например, рак простаты, лейкемия, нейробластома — рак симпатической нервной системы, которым в основном заболевают дети.

В этой области нас интересует две вещи. Первое — это состояние микроокружения раковой опухоли. От этого многое зависит. Это заметно, например, по тому, как опухоль метастазирует в определенные ткани. Тот же рак простаты достает костный мозг чуть ли не в 100% метастатических случаев, а это значит, там есть что-то, что его поддерживает. Поэтому пытаться понять такие зависимости важно.

Во-вторых, необходимо обратить внимание на отличия самих раковых клеток друг от друга, поскольку считается, что это основная причина возникновения резистентности. С помощью детальных методов мы можем смотреть, чем разные клетки отличаются друг от друга, и попытаться связать это с генетическими факторами, реакцией на лечение и так далее.

Вторая половина проектов связана с картировкой тканей. По этому направлению мы в основном работаем с мозгом.

Вы получили степень бакалавра по физике, потом занимались Computer Science и наконец защитили степень PhD по биофизике. И судя по задачам, которые выполняет ваша лаборатория, ее сотрудник должен быть в какой-то степени и биологом, и физиком, и на достаточно хорошем уровне уметь программировать. Как вы ищете людей, которые действительно способно выполняют задачи такого уровня? На какие компетенции смотрите прежде всего?

Это все очень непросто. Как человек, который набирает людей в лабораторию, я каждый раз ловлю себя на мысли, что для проектов, которые мы делаем, действительно нужен очень широкий круг компетенций. Почти во всех случаях человек должен совершенно свободно уметь программировать. С другой стороны, нужно также понимать статистические принципы, потому что на них основана вся обработка этих данных. Данные всегда очень «шумные», поэтому без хорошей статистики здесь никуда не деться.

Медицинская школа Гарварда. Источник: социальные сети

В-третьих, необходимо также понимать биологические принципы, интересоваться этой сферой, постоянно читать специализированную литературу в этой области. В это легче погрузиться, но все равно базовые знания необходимы. И наконец, есть список других навыков, которые я хотел бы видеть у такого специалиста, но понятно, что получить все это сразу нереально.

По сути, мы подбираем людей, которые на высоком уровне владеют частью этой экспертизы и хотят усилить другие стороны. Пожалуй, самый успешный вариант, когда люди уже очень хорошо владеют численными методами, статистикой, программированием и при этом они достаточно заинтересованы биологией, чтобы тратить на это время. По моему опыту, таких специалистов получается обучить быстрее всего.

Два года назад вы выпустили статью, которая называлась «Challenges and emerging directions in single-cell analysis» (Вызовы и новые направления в анализе одиночных клеток). Если говорить о вызовах и новых направлениях на сегодняшний момент, сильно ли поменялась картина за последние два года? Над чем вы планируете работать в будущем?

Эта область на самом деле очень быстро менялась. И то, что мы написали несколько лет назад, сейчас можно уже полностью переписать. Если говорить о новых, многообещающих направлениях, то прежде всего я бы отметил направление пространственной транскриптомики. До сих пор это очень сложные эксперименты, технология продолжает развиваться, но при этом у нее есть очень большие плюсы. Во-первых, благодаря развитию этих исследований мы получаем информацию о контексте, а многоклеточные организмы по определению зависят от контекста: если мы его теряем, то видим очень узкую картину.

А во-вторых, есть и очень важный технический плюс. Для большинства из этих методов мы можем зафиксировать ткань, то есть мы можем ее заморозить или химически зафиксировать. Таким образом, мы можем измерить ее практически в том же состоянии, которое у нее было в организме. Это действительно очень перспективная область, и мы планируем применять ее в различных направлениях, в том числе в исследовании раковых заболеваний.

Другое, на мой взгляд, многообещающее направление, которое плотно связано с вычислительными исследованиями, — это, по сути, трансляция, или интеграция совершенно разных модов измерений. Транскрипционное состояние — это одна проекция клетки. Так же можно измерять состояние ДНК, белков, и других молекул в клетке. Мы можем научится транслировать между этими модальностями с помощью вычислительных методов. В моем понимании это задача тренировки некого общего ядра, которое уже достаточно хорошо знает определенную систему, чтобы, например, предсказать конфигурацию регуляционных элементов при условии, что мы знаем состояние ДНК или транскрипции.

А вызовов всегда очень много, причем они находятся на всех уровнях. Например, на вычислительном уровне это связано с объемом данных, задачами статистики, визуализации. Пространственные методы возвращают нас назад ближе к микроскопии, а в связи с этим появляются и задачи по обработке изображений.

Сегодня на лекции ваш коллега также коснулся темы этических ограничений. В исследованиях, связанных с той же CRISPR/Cas, это очень актуально. А влияют ли как-то этические аспекты на вашу работу?

Именно в нашей области таких жестких ограничений нет. Есть этические правила, с которыми я полностью согласен. Для нас больше актуальны ограничения другого рода – например, связанные с финансированием. Даже если пройти все этические комиссии, получить деньги на ранние эмбриональные исследования довольно непросто, потому что количество средств ограничено. Но я бы в целом даже не назвал это ограничением. Просто барьером.

Здесь нужно понимать, что мы не манипулируем системой, а изучаем ее натуральную организацию, поэтому в этом плане у нас гораздо меньше этических проблем, которые нужно разрешать. В целом, на мой взгляд, сегодня научное сообщество хорошо разграничило области и этические проблемы, которые в них существуют. И безусловно, чем ближе мы подходим к человеку, тем аккуратнее нужно за всем этим следить.

К началу

Профессор Медицинской школы Гарварда Петр Харченко: Чтобы действительно понять, как работают клетки, нужно подходить к задаче статистически

Елена Меньшикова

Медиапортал

Открытые лекции по биомедицине Петра Харченко и Вячеслава Дячука

Похожие новости

Химик Екатерина Скорб — о работе в Гарварде, российской науке и перспективах новой области на стыке химии и IT

WorldSkills: как готовят чемпионов международных первенств профессионального мастерства в Университете ИТМО