Денис Разбицкий, Уральский Федеральный Университет (УрФУ), г. Берёзовский
Я стал участником проекта, тема которого звучит как «Восстановление филогенетического дерева». Филогенетическое дерево — это дерево, отражающее эволюционные взаимосвязи между различными видами. Зачем уметь его строить? Например, для того, чтобы определять эволюционный путь клетки от здоровой к раковой для ранней диагностики онкологических заболеваний. Сегодня этой проблемой в составе исследовательской группы Университета ИТМО занимается кандидат физико-математических наук и ведущий научный сотрудник кафедры компьютерных технологий Университета ИТМО Никита Алексеев – именно он курировал наш проект.
Проект имел упрощенную постановку задачи (допускались только две мутации: делеция и дупликация), однако, даже несмотря на это, задача оказалось непростой. На семинарах нам рассказали о генерации выборок с помощью статистического метода Monte-Carlo Markov Chain (МСМС), который мы использовали при работе над нашим проектом. Также я слышал о том, что подобную задачу решают с помощью деревьев принятия решений (decision trees) – семейства алгоритмов машинного обучения. Большую часть времени мы провели у доски – нужно было систематизировать наши мысли, рассмотреть разные варианты, проверить их состоятельность. Затем мы начали программировать, однако из-за временного лимита нам пришлось ограничиться только некоторыми статистическими подсчетами. Несмотря на то, что у нас было не так много времени, мы получили интересный и полезный опыт, а также применили знания, полученные на семинаре по MCMC.
На самом деле, работ и исследований в области рака сегодня очень много. Так, активно исследуются иммунотерапия рака, онкогеномика, а также персонализированная онкология. Я выбрал этот проект, потому что мне хотелось попробовать применить знания теории вероятностей и математической статистики к решению прикладных задач, и, как мне кажется, нашей команде это удалось.
Елена Картышева, математико-механический факультет СПбГУ
За три дня у нас сформировалась небольшая команда из пяти человек – все информатики – и мы решили взять проект у преподавателя по Python Константина Зайцева (Washington University in St.Louis, Университет ИТМО). Название проекта – «Сравнительный анализ LUAD и LUSC раков легких на основе данных TCGA» нам ни о чем не сказало, однако мы все равно за него взялись. Уже после мы узнали, что существует два подтипа рака легких, и есть статьи, в которых исследуется экспрессия генов в каждом типе рака, то есть человек умеет определять рак легких. Однако для направленного лечения нужно знать конкретный подтип – эту задачу нам и предстояло решить. Таргетированное лечение рака – весьма важная проблема сейчас. Мы с куратором решили посмотреть, получится ли нам обнаружить что-то интересное, сможем ли найти какие-нибудь зависимости, однако времени было мало. Мы должны были провести анализ мутировавших генов в раковых опухолях легких и выделить для каждого из двух видов уникальные. На основе полученных результатов возможно предсказание типа опухолей – это обеспечит своевременное и эффективное лечение. Также результаты помогают детальнее понять причины возникновения раковых опухолей легких.
Сначала мы не знали, как разрешить проблему, однако позже решили свести ее к задаче бинарной классификации. В этом случае мы просто обучаем модель и смотрим, какие признаки являются самыми важными. Мы немного поработали с данными, хотя преобразование мало что дало: у нас была разреженная матрица данных. В итоге из большого числа разных моделей самый лучший результат дал catboost от Яндекса – его мы и использовали. Дальше уже шла работа с визуализацией и анализом полученных результатов.
Летнюю школу по биоинформатике организует Институт биоинформатики с 2013 года. В интенсиве ежегодно участвуют 100 студентов, аспирантов и молодых учёных физико-математических, компьютерных и биологических специальностей. В этом году в течение шести дней участники слушали лекции про молекулярную биологию и генетику, биоинформатику и ее применение в диагностике и изучении рака, узнали, как научные группы мира объединяют свои усилия в изучении геномики и эпигеномики рака и многое другое. Полученные знания участники школы сразу применяли на практических занятиях по обработке данных на языке Python и в статистической среде R, построению пайплайнов и моделированию белковых молекул, а также узнали про визуализацию полученных данных, построение карьеры в биоинформатике и подготовку научного резюме. Среди приглашенных лекторов были учёные из России, такие так Алла Лапидус (Центр алгоритмической биотехнологии СПбГУ), Михаил Пятницкий (НИИ биомедицинской химии им. В.Н. Ореховича), Алексей Сергушичев (Университет ИТМО), а также представители биоинформатических лабораторий из университетов Европы и США: Константин Зайцев (Washington University in St.Louis, Университет ИТМО), Герман Демидов (Barcelona Institute of Science and Technology/ Universitat Pompeu Fabra), Константин Оконечников (German Cancer Research Center), Павел Синицын (Max Planck Institute of Biochemistry), Илья Минкин (The Pennsylvania State University) и другие.
Каждый год школа совершенствуется. Сначала все проекты были обязательными и длились в течение всей школы, сейчас кураторы перешли к формату хакатона с короткими проектами для всех желающих, которые являются продолжением практик. Каждый проект выполняется командой биологов и информатиков.
«С 2016 года Летняя школа по биоинформатике является тематической. Во-первых, это дает возможность людям, которые подходят по критериям, участвовать в разных школах, а также делать лекции более узкоспециализированными. Для людей, которые хотят развиваться в конкретном направлении это намного полезнее, чем просто общие лекции. Так, например, в прошлом году школа была посвящена интеллектуальному анализу данных и было много лекций про Machine learning, deep learning и статистике. В этом году мы сделали школу посвященную раку, и были доклады про Cancer Atlas Consortium и детекцию заболеваний. Идея про рак пришла сама собой, поскольку им сейчас занимаются очень многие, есть большое количество данных, и исследования в этой области у биоинформатиков на слуху», – прокомментировала куратор Института биоинформатики Ольга Бондарева.
В этом году на летнюю школу было подано более 450 заявок из России и стран ближнего и дальнего зарубежья. Среди отобранных на два равных потока участников — биологов и информатиков — представители пяти стран (Россия, Украина, Белоруссия и другие) и 30 городов, среди которых Алматы, Владивосток, Архангельск, Нижний Новгород, Челябинск, Уфа и другие. Организаторы школы отбирают участников, руководствуясь несколькими критериями: анкета, резюме и тезисы. Во внимание принимаются мотивация, соответствие профилю и уровню школы, академические и научные достижения и другие заслуги, интеллектуальный уровень заявки. Школа ориентирована на начальный уровень знаний в биоинформатике.
«Основной критерий – это наличие понимания у человека, зачем ему это знание и как он собирается его применять. Идеально, если в лаборатории участника уже начинается или вот-вот начнется проект, связанный с NGS и ему необходимы практические навыки обработки данных. К сожалению, приходит достаточно много заявок, где человек просто услышал слово ”биоинформатика” и ему стало интересно», – объяснила Ольга Бондарева.