Хемоинформатика: как сочетать химию, биологию, физику, IT и математику в одном

Когда химик планирует более-менее сложную реакцию, все происходит, как на обычной кухне. Представьте, что у вас есть под рукой много компонентов. Их нужно положить в кастрюлю – в строго определенной пропорции и последовательности. Так и у химиков, только гораздо сложнее. Ведь зачастую пред тем, как провести реакцию, специалисты понимают, что хотят получить на выходе, а также представляют себе закономерности, явления и условия, которые будут драйверами в конкретном процессе. Если желаемый результат – что-то стандартное, известное уже много лет, то как правило, проблем не возникает. Если же говорить о совершенно новом соединении, материале, процессе, то приходится пробовать и экспериментировать: какой необходим растворитель, катализатор или для начала следует изменить температуру или давление, какова последовательность в каскаде реакций и ее временные параметры? На такой подбор уходит колоссальное количество времени и человеческих ресурсов. Поиск ответов на эти вопросы может существенно ускориться, если призвать на помощь современные базы данных, алгоритмы анализа данных и машинного обучения и компьютеры, способные обрабатывать значительные объемы качественно различающихся данных. Это, кстати, является одной из задач математической химии, или хемоинформатики, где с помощью математических моделей можно попытаться предположить, например, какой взять катализатор, предсказать, как в целом будет протекать реакция и какие свойства могут быть у соединения на выходе.

Хемоинформатика не только стала хорошим помощником при анализе данных и предсказании в области химии, но и поставила перед химиками и информатиками новые задачи: как следует хранить, упорядочивать, классифицировать, передавать все эти данные? Ответить на эти вопросы призваны специалисты по хемоинформатике. Они объединяют на практике компетенции в области естественных наук и информационных технологий и способны решать задачи различного профиля — от персонифицированной медицины, медицинской химии, фармакологии и материаловедения до молекулярного моделирования новых материалов или даже экологического мониторинга в газонефтяной области.

Где учат хемоинформатике и молекулярному моделированию?

В зарубежных, в частности в нескольких европейских вузах, есть образовательные программы по хемоинформатике и молекулярному моделированию. Интеллектуальному анализу химических данных учат, например, в Университете Гамбурга, Шеффилдском и Страсбургском университетах и многих других. В России таких программ — единицы. Одна из них открылась в 2016 году в Университете ИТМО в партнерстве со Страсбургским университетом, став второй профильной программой в РФ, созданной в сотрудничестве с престижным зарубежным вузом.

Страсбургский университет. Источник: wikimedia.org
Страсбургский университет. Источник: wikimedia.org

Программа «Хемоинформатика и молекулярное моделирование» реализуется кафедрой ИТГС и лабораторией биоинформатики Университета ИТМО, появившейся в вузе несколькими годами ранее. Ее главная цель — подготовка магистров, которые смогут работать в высокотехнологичных областях современной вычислительной фармакологии и компьютерной разработки лекарств, будут осуществлять сбор, анализ и хранение данных о химических соединениях, а также смогут классифицировать и конструировать новые молекулярные структуры с заданными свойствами. В рамках приемной кампании 2017 года на программу «Хемоинформатика и молекулярное моделирование» (бюджет) принимают 10 человек, но, как отмечает руководитель программы, заведующий международной научной лабораторией «Структурная биоинформатика» Юрий Порозов, при успешном наборе планируется увеличение количества мест в магистратуру в следующем году.

«21 век — это век биологии, медицины, и все это знают. Поэтому такая программа с международным участием, разумеется, была просто необходима, — комментирует он. — Нашу работу можно обозначить как Computational drug design and molecular modeling. Это моделирование, предсказание свойств молекул, планирование новых молекул, объяснение, как одна молекула связана с другой, почему возникает ингибиция (процесс и результат угнетения, замедления или даже прекращения реакций, процессов, некоей деятельности или активностиприм. ред.), насколько сильна эта ингибиция, что можно сделать в молекуле, чтобы улучшить ее специфичность, и так далее. Все происходит на компьютере, но потом это все должно проверяться на практике».

Обучение по программе также ведется в плотном контакте со специалистами Страсбургского университета – так, с открытыми лекциями на кафедру приезжал профессор этого вуза Александр Варнек. А лучшие магистранты получают возможность учиться во Франции.

Юрий Порозов
Юрий Порозов

Как это сделать?

Попробовать поступить в магистратуру во Франции можно, отучившись год в магистратуре в Университете ИТМО. Для этого необходимо проявить себя как активный и ответственный студент со средним баллом по результатам первого года обучения не ниже 4,5 и с достаточным знанием английского и французского языков. У студентов после представления своих проектов и после общения с руководителем магистратуры Страсбургского Университета появляется возможность поехать на два семестра в Университет Страсбурга и в итоге, помимо российского, получить и французский диплом. Уже в этом году отправиться в Страсбург смогут трое магистрантов из первого набора программы «Хемоинформатика и молекулярное моделирование», которые рассказали для ITMO.NEWS о своих исследованиях.

Цель проекта Арины Суворовой — создать алгоритм и программное обеспечение, облегчающее расчет и анализ кривых рассеяния рентгеновского излучения на структурах белка в растворе. Речь идет об определении процентного соотношения белковых форм в растворе по форме кривых индикатрисс рассеяния.

«Практическая часть работы — разработать реальный метод для того, чтобы по измеренным кривым рассеяния в эксперименте сказать, сколько в данном объеме раствора белка мономеров, димеров и, возможно, тетрамеров, если речь идет о сывороточном альбумине — рассказывает научный руководитель Арины Суворовой Юрий Порозов. — Фактически выглядит это так: физики берут пробирку с раствором белка, производят замеры, а дальше включают программу Арины и понимают, что в данном растворе, допустим, 20% мономера и 80% димеризованной формы белка. Это важно, в том числе и для молекулярных биологов, так как от того, в какой именно форме находится белок в растворе и как соотношение форм белка изменяется со временем, зависят и тип экспериментов, и их результаты». 

Виктор Федосов, Юрий Порозов и Мария Вашурина
Виктор Федосов, Юрий Порозов и Мария Вашурина

А цель проекта Марии Вашуриной — научить нейронные сети предсказывать вторичные структуры в белках. Это, в свою очередь, является начальным этапом для предсказания третичной структуры и, затем, функции белков, являются ли они, например, потенциальной мишенью в метаболическом пути.

«Белки в нашем организме — это такие маленькие машинки, которые, по сути, обеспечивают наше существование. Белки состоят из аминокислот, еще более маленьких молекул, мономеров. По сути все разнообразие белков можно представить цепочками из этих аминокислот, различными их последовательностями. Первичная последовательность потом принимает какую-либо форму — вторичную, третичную и четвертичную структуру. А структура, как известно, определяет их функцию. Цель моей работы — предсказание расположения элементов вторичной структуры в белке по его аминокислотной последовательности при помощи формы записи SMILES, fingerprints и нейронных сетей, — говорит Мария Вашурина.

Работа Виктора Федосова, напротив, с белками и биоинформатикой никак не связана. В своем исследовании магистрант решает конкретную хемоинформатическую задачу, цель которой — исследовать свойства новых материалов, которые, например, применяются в фотонике.

«Суть задачи в том, что у нас есть двумерный металло-органический материал, такие были получены еще в 1990 году, сейчас они довольно популярны и все больше занимают умы химиков. К примеру, если графен можно представить как чистый углеродный скелет, то у меня он содержит еще и металлы. Так вот, если эти двумерные слои расположить в некоторой последовательности один над другим и заполнить пространство растворителем, то можно исследовать дальнейшее влияние растворителя на свойства всего этого материала. Скажем, если мы будем менять расстояние между слоями, концентрацию растворителя, это приведет к изменению этих слоев. В некоторых случаях они начинают деформироваться, в некоторых происходят еще более интересные ситуации, которые, в свою очередь, можно в дальнейшем как-то использовать с технологической точки зрения. Построением компьютерной модели такой системы и исследованием ее свойств и возникающих в ней феноменов я сейчас и занимаюсь», — объясняет Виктор Федосов.

Продолжить свои исследования студенты смогут уже с нового семестра в Страсбургском университете под руководством сотрудников лаборатории Александра Варнека. Кроме того, будущие выпускники программы «Хемоинформатика и молекулярное моделирование» в течение обучения будут проходить практику в научных центрах Петербурга.

Пример фармакофорной модели. Источник: wikimedia.org (как пример хемоинформатики)
Пример фармакофорной модели. Источник: wikimedia.org (как пример хемоинформатики)

Почему био- и хемоинформатика становится все более популярной?

Российский рынок геномики и биоинформатики находится в стадии активного формирования. Согласно результатам исследования экспертов Московского Центра исследований и разработок ЕМС и НИУ «Высшая школа экономики» (ВШЭ), его объем находится на уровне 500 млн рублей, однако темпы роста рынка достаточно высоки и превышают 30%. Среди основных катализаторов роста рынка эксперты выделяют падение стоимости геномного секвенирования, накопление доказательств медицинской эффективности данных диагностических технологий, а также рост осведомленности врачей и граждан о возможностях современной геномики.

Большие перспективы для развития есть и у рынка хемоинформатических исследований, отмечает Юрий Порозов. Ведь уже сегодня практически любая разработка современных лекарств или новых материалов, исследования межмолекулярных взаимодействий начинается с лаборатории био- и хемоинформатики, говорит он.

В России основные научные био- и хемоинформатические центры расположены в Москве, Петербурге и Новосибирске. За рубежом, помимо крупных корпораций, входящих в число предприятий «Биг Фарма» (компании с годовым доходом более $3 млрд или тратящие на медицинские исследования и разработки не менее $500 млн в год) есть и более мелкие компании, стартапы, которые специализируются исключительно на интеллектуальном анализе химических данных и аутсорсинге. Как предполагает Юрий Порозов, аналогичные примеры по мере развития рынка могут появиться и в России.

«IT-компаний много, хороших фармкомпаний мало. В России этот рынок находится на стадии развития. За рубежом уже сейчас, помимо компаний “Биг Фарма”, есть и множество небольших успешных компаний, многие из которых живут только тем, что предсказывают-рассчитывают перспективные соединения, ищут новые молекулярные мишени, а затем продают результаты своих исследований тем, кто может довести разработку до регистрации. Яркий пример – Nimbus Pharmaceuticals. При этом у них нет больших и очень дорогостоящих химических и молекулярно-биологических лабораторий. Но у них есть хорошие специалисты по хемоинформатике и молекулярному моделированию, которые могут делать исследования на высоком уровне и партнеры, которые хорошо умеют коммерциализировать успешные разработки. Таким образом получается, своего рода, научный аутсорс, пользоваться которым зачастую дешевле и выгоднее. Возможно, у нас в России это будет развиваться по такому пути», — резюмирует Юрий Порозов.