Дататон по разметке текстов: как анализируют тексты программисты и гуманитарии и зачем это нужно делать в команде

В минувшие выходные прошел первый дататон по разметке текстов, организованный Университетом ИТМО. Более 80 участников, среди которых были как программисты, так и специалисты в гуманитарных областях, работали над задачей по лингвистической разметке исторических и культурологических источников. В рамках образовательной программы дататона перед участникам выступили лекторы NLP-семинара, организуемого Университетом ИТМО совместно с Huawei. Они сфокусировали внимание на актуальных задачах прикладного искусственного интеллекта и трендах в области обработки естественного языка. Как прошел дататон, рассказываем в материале.

Дататон. Фото: Анастасия Ядрихинская

Формат дататона

Дататон — это двухдневное соревнование, участники которого объединяются в команды, чтобы разработать лучшее решение для задачи, связанной с гуманитарными данными. Организаторами дататона являются международная лаборатория цифровых гуманитарных исследований (DHLab) и лаборатория машинного обучения МНЦ «Компьютерные технологии», сотрудники которой ведут исследования по машинному обучению, биоинформатике, эволюционным вычислениям и дискретной оптимизации. DHLab — это международная научная лаборатория цифровых гуманитарных исследований Университета ИТМО, а также первый масштабный проект в Санкт-Петербурге, посвященный популяризации Digital Humanities — дисциплине на стыке компьютерных и гуманитарных наук (подробнее о лаборатории и ее проектах читайте в нашем материале).

Главный партнер дататона по разметке текстов от Университета ИТМО — компания Huawei. С декабря 2018 года Huawei совместно с лабораторией машинного обучения вуза проводит семинары по обработке естественных языков. Также партнерами дататона выступил Государственный музей истории религии, в котором собраны экспонаты по истории религий от древнейших времен до наших дней.

Дататон
Дататон

Как отмечает Антонина Пучковская, руководитель МНЛ цифровых гуманитарных исследований Университета ИТМО, главная особенность дататона в том, что его участниками, помимо программистов, стали специалисты в гуманитарных областях — лингвисты, культурологи, историки, искусствоведы и другие.

«Основная цель дататона — решить проблему, которая стоит перед нами в рамках большого интердисциплинарного проекта, посвященного созданию интерактивной карты Петербурга. В этом проекте мы анализируем различные гуманитарные источники, в том числе мемуары, периодику, другие данные. Нам необходимо было придумать, как разметить эти тексты. И мы решили вынести эту проблему на дататон. Так как мы работаем с первоисточниками, которые являются оригинальными текстами на русском языке, то мы пригласили также гуманитариев, потому что для успешного решения задачи также было необходимо понимание самой структуры текста, отмечает она. — Во многих зарубежных странах дататоны проводятся достаточно давно, но в России этот формат пока не очень распространен. Поэтому мы хотим популяризировать такие мероприятия и среди гуманитарного сообщества».

Антонина  Пучковская
Антонина Пучковская

Участники дататона и все, кто интересуется анализом гуманитарных данных и работой в сфере Digital Humanities смогли пообщаться с экспертами в неформальной обстановке, а также узнать про новую образовательную программу «Анализ культурных данных и визуализация / Data, Culture & Visualisation», на которую уже идет набор в Университете ИТМО. Программа нацелена на подготовку специалистов, которые смогут разрабатывать алгоритмы и программы интеллектуального и лингвистического анализа данных, а также применять информационные технологии в гуманитарных областях с использованием средств интеллектуального анализа данных и машинного обучения и компьютерной лингвистики.

Образовательная программа

В первый день дататона в рамках образовательной программы лекции участникам прочитали специалисты компании Huawei. Они рассказали о задачах прикладного искусственного интеллекта, трендах в области анализа естественного языка, а также поделились кейсами из своей практики.

Например, о распознавании именованных сущностей, рассказали Денис Тесленко и Влад Третьяк, сотрудники Huawei Technologies, доклад о разрешении кореферентности представила Евгения Богачева, сотрудник лаборатории машинного обучения Университета ИТМО, а Дарья Родионова, специалист Huawei Technologies, на примере собственных проектов разобрала, что такое «sentiment analysis» и как научить машину различать хорошее и плохое в событиях и людях.

Денис Тесленко и Влад Третьяк
Денис Тесленко и Влад Третьяк

«Sentiment analysis также иногда называют тональным анализом. Это одна из довольно часто встречающихся задач в NLP. Например, каждый из нас, когда слушает какую-либо новость, всегда пытается ее эмоционально окрашивать: хороша ли она для него, плоха или нейтральна. Если об одном и том же тесте или объекте собрать много оценок, то уже можно составлять рейтинги. По такому же принципу составляются рейтинги кинофильмов. И так же анализируются товары. Главная сложность это, конечно же, объективность, ведь любое событие или новость оценивается пользователями достаточно субъективно», — рассказала эксперт.

Зачем необходимо размечать тексты и как это поможет в анализе культурологических данных

Всего в дататоне приняли участие более 80 человек. В первый день работы участники разбились на интердисциплинарные команды. Каждая команда обязательно должна была включать программиста и специалиста в гуманитарных дисциплинах. На протяжении двух дней участники решали задачу по лингвистической разметке исторических и культурологических источников для формирования корпуса и последующего обучения нейросети.

В распоряжении команд был большой пласт культурологических данных: дневники композиторов и известных людей, принадлежавших к театральной жизни Петербурга 18-19 веков, а также тексты об истории развития рока в Петербурге, материалы про джаз и театр. Все эти источники необходимо проанализировать в рамках проекта по созданию интерактивной карты Петербурга, который сейчас выполняется в международной научной лаборатории цифровых гуманитарных исследований.

Задача участников дататона — на основе этих данных создать разметку (иными словами, найти связи между словами в тексте), которая позволит классифицировать понятия, относящиеся к одной и той же сущности. Примеров связей может быть несколько. Например, при нахождении кореферентности специалисты должны найти имена в тексте, которые ссылаются на одну реальную сущность. Допустим, даже если Петр Чайковский называется в тексте Петром Чайковским, великим русским композитором, Петром и так далее, все эти разные понятия все равно относятся к одному человеку. Еще один пример нулевая анафора. Этот термин обозначает ситуацию, когда у нас есть сущность, но в предложении нет обозначающего ее слова, хотя по контексту это можно восстановить.     

«Могу привести пример: “Я купил автомобиль и велосипед, первый сломался, а на втором я не умею ездить, поэтому заржавел”. Слово “первый” — отсылка к автомобилю, “второй” — отсылка к велосипеду. В фразе “поэтому заржавел” все не так однозначно. И задача участников дататона в том числе в том, чтобы разобраться с такими случаями и правильно определить отсылки, говорит Андрей Фильченков, руководитель лаборатории машинного обучения МНЛ «Компьютерные технологии» Университета ИТМО. — Таким образом, мы также создаем корпус кореферентности русского языка. Разрешение кореферентности — это классическая задача, и она является одной из центральных при обработке естественного языка. Обычно, если речь заходит про русский язык, появляется проблема с ресурсами, потому что он не настолько покрыт данными, как английский. Когда мы получим этот корпус, мы планируем его в том числе опубликовать, чтобы помочь нашим коллегам по цеху в разработке новых моделей и для содержательного анализа».

Евгения Богачева добавляет, что участники дататона не только помогли увеличить корпус русского языка, но и поработали над задачей создания первого для русского языка корпуса нулевой анафоры. В случае с английским языком такие задачи решаются уже достаточно давно, в русском, где в силу языковых особенностей очень часто опускается подлежащее, специалистам предстоит решить еще много проблем.

Каждый текст на дататоне размечался двумя участниками, что, по словам организаторов, помогло повысить качество разметки. Кроме того, в случае возникновения коллизий к разрешению подключались судьи профессиональные лингвисты. Участники дататона использовали программный инструментарий, разработанный командой организаторов дататона и помогающий решать задачу разметки.

Победителем дататона стала команда GUM, получив 15 тысяч рублей. Команды, расположившиеся на втором и третьих местах, стали обладателями бесплатных билетов в Музей истории религии и подарков от Университета ИТМО. Кроме того, все участники получили памятные подарки от организаторов, а также бонусные баллы при поступлении в новую международную магистратуру «Анализ культурных данных и визуализация / Data, Culture & Visualisation».

Редакция новостного портала
Архив по годам:
Пресс-служба