BioHack-2018: как за 48 часов составить картотеку песен дрозофил и кому это нужно

В Санкт-Петербурге состоялся 48-часовой хакатон BioHack. Сборные команды биологов и программистов из нескольких городов России решали научные и прикладные задачи в области биоинформатики. На мероприятии собрались как студенты, так и начинающие ученые. Хакатон проводился при поддержке компании-разработчика цифровых платформ EPAM и Института биоинформатики.

Хакатон по биоинформатике BioHack

Для участия в хакатоне нужно было только зарегистрироваться и написать мотивационное письмо. Предварительный отбор участников велся в индивидуальном порядке. Можно было участвовать сформированной командой, только если все участники прошли отбор. Ведь смысл хакатона заключается в популяризации междисциплинарных исследований и развитии у участников навыков, необходимых для работы в сборных командах биологов и программистов.

До начала хакатона команды могли сообщить организаторам, над каким проектом они бы хотели работать на самом мероприятии. Однако окончательное распределение задач было сделано лишь в первый день хакатона. Проекты были сформированы компанией EPAM, Институтом биоинформатики, Университетом ИТМО, различными медицинскими исследовательскими университетами и центрами, а также другими компаниями-партнерами. Кроме того, можно было приехать на конкурс со своим собственным проектом, если он еще нигде не был реализован.

Оценка выполненных проектов производилась по пяти критериям: техническая полезность (насколько проект масштабируем в индустрии), его общественная полезность, завершенность, презентация проекта, а также общая оценка «красоты» проекта, сообщил член жюри, доцент кафедры компьютерных технологий Университета ИТМО Владимир Ульянцев.

«На хакатоне собрались очень сильные студенты, одни из лучших в своей области, так как для участия нужно было пройти предварительный отбор. Те проекты, которыми они занимались, они могут продолжать развивать с менторами или у себя в вузах. Например, в прошлом году я был ментором у одной студентки Университета ИТМО. Сейчас она уже защищает диплом и готовит научную публикацию по результатам того проекта, который начала на прошлом BioHack. В этом году сложилось так, что 90% всех проектов были скорее научные. Это нельзя назвать преимуществом, потому что за два дня хакатона маловероятно добиться каких-либо новых результатов в науке. Поэтому оценивать работы ребят было еще сложнее, очень много зависело от качества их презентации», – прокомментировал он.

Владимир Ульянцев
Владимир Ульянцев

Третье место и приз в 50 тысяч рублей достались команде No PasaRAN! из студентов и аспирантов из Университета ИТМО, Санкт-Петербургского государственного университета, Политехнического университета, Университета им. Бонч-Бруевича. Как отметил руководитель тренингового центра EPAM в Санкт-Петербурге Заал Льянов, команда смогла достойно справиться с высокопроизводительными вычислениями, оптимизацией данных, а также найти эффективное и простое решение для поставленной проблемы.

Проект заключался в том, чтобы построить модель, с помощью которой можно было бы предсказывать развитие нейродегенеративного заболевания на основе анализа повторов в ряде генов. Из-за этих повторов происходит механизм RAN-трансляции, из-за которого образуются белки с определенными повторами аминокислот. Эти белки ассоциируются с образованием некоторых веществ, которые, в свою очередь, связывают с возникновением нейродегенеративных заболеваний. Также существовали некоторые закономерности между количеством повторов в генах и возникновением заболеваний.

Заал Льянов
Заал Льянов

Команда No PasaRAN! должна была проанализировать имеющиеся большие данные о геномах здоровых пациентов и пациентов с нейродегенеративными заболеваниями на наличие повторов. А затем на основе этих данных построить модель для предсказаний возникновения заболевания на основе нейросети и машинного обучения. Полученная ими модель повторяет те результаты, которые были получены экспериментальным путем учеными. Однако ребята подчеркнули, что модель не может делать 100%-предсказания. Во-первых, пока собрано очень мало данных о RAN-трансляции и влиянии этого процесса за развитие заболеваний – вышло менее 10 научных статей на эту тему. А во-вторых, не всегда возникновению заболевания предшествует один и тот же набор повторов.

«Эти механизмы еще плохо изучены. Для понимания того, где можно искать RAN-трансляцию, мы попытались свести все знания, уже накопленные авторами немногочисленных статей, чтобы предсказать, где и в каких генах мы можем найти этот механизм в теории. А затем ученые-экспериментаторы смогут проверять эти предсказательные данные экспериментальным путем. BioHack – это отличное место, чтобы быстро попытаться проверить аспекты науки, которые тебя волнуют, но на которые не хватает времени: на мероприятии собираются люди с разными компетенциями», – прокомментировал участник команды No PasaRAN из Университета ИТМО Дмитрий Смирнов.

Второе место (приз – 70 тысяч рублей) заняла команда «m(олот)ТОРа». Яркое название обязано задаче, которую решала команда: участники должны были выяснить, как факторы плюрипотентности могут регулировать экспрессию генов, участвующих в сигнальном пути mTOR. Иными словами, как эти факторы влияют на рост, метаболизм, развитие тех или иных клеток. Известно, что в организме человека существуют плюрипотентные клетки, это такие «универсальные солдаты», из которых образуются все остальные клетки для разных тканей. mTOR участвует в изменении работы этих клеток. Но как? Может ли он приостанавливать процессы развития таких клеток?

Да, может. Чтобы это выяснить, команда проанализировала данные экспериментов по связыванию факторов плюрипотентности с ДНК, а также данные об экспрессии генов из публичных баз данных. По словам Владимира Ульянцева, команда применила по-настоящему научный подход и за два дня смогла провести полноценное исследование, за что и получила второе место.

Первое место и главный приз в 100 тысяч рублей получила команда Good Vibrations, которая взялась, по словам жюри, за несколько необычный проект, который жюри назвали Shazam для дрозофил. Shazam – это платформа, которая помогает людям искать музыку и определять играющую песню. Команда победителей научилась определять, какие именно «песни» поют самцы мух-дрозофил самкам. Ребята смогли представить технически законченный алгоритм.

Изначально у команды была база аудиофайлов, записанных биологами, которые изучают «брачные песни» дрозофил. Исследования «песен» помогают лучше понять, как работает нервная система у мух. Этих записей – огромное количество. Сегодня есть программы для классификации звуков по определенным физическим характеристикам, в частности, нужно определять участки импульсной и синусной песни. Однако они работают неточно, а ученым приходится долго проверять данные в ходе визуального осмотра и подсчетов «вручную». Участники хакатона должны были разработать программу, которая бы улучшила точность классификации «песен».

Для этого ребята разбили аудиофайлы на отрезки, на каждом посчитали определенные метрики, на основе которых обучили нейросетевую модель. Полученные алгоритм не только не пропускает ни один участок «песни», но также может работать и на звуках другого типа. Для этого нужно переобучить модель на других данных. Дело в том, что для создания модели участники хакатона не использовали какие-либо данные, которые характерны для определенных типов животных, а брали универсальные характеристики. При проверке алгоритма результаты его анализа совпали с результатами человеческого анализа данных на 93%.

Всего в хакатоне участвовали 23 команды не только из Санкт-Петербурга, но и из Москвы, Екатеринбурга, Новосибирска и других городов России. Все команды дошли до финала, что достаточно редко случается на хакатонах. С тематиками других проектов можно ознакомиться по ссылке.

Редакция новостного портала
Персоны
  • Владимир Ульянцев

    Сотрудник Международной лаборатории «Компьютерные технологии» Университета ИТМО

Архив по годам:
Пресс-служба