Большинство из нас каждый или почти каждый день использует поисковые системы, голосовые помощники, системы автоматического перевода, а наши дети знают «Сири» и «Алису» не хуже своих бабушек. Мы часто слышим про нейронные сети, искусственный интеллект, а следом за этими словами нередко и упоминание о компьютерной лингвистике.
О том, что это за профессия, какое у неё настоящее и будущее, где учиться компьютерной лингвистике, «Мел» поговорил с директором по лингвистическим исследованиям компании ABBYY и заведующим кафедрой компьютерной лингвистики МФТИ Владимиром Селегеем.
Владимир Селегей
Многие до сих пор не понимают, что такое лингвистика и компьютерная лингвистика, считая, что это некая разновидность филологии. Почему так?
Начнём с лингвистики. Сегодня тема языка и компьютера очень популярна, вы постоянно слышите об искусственном интеллекте. Задачи анализа и синтеза языка, то есть собственно лингвистика чаще всего упоминается как одна из главных целей искусственного интеллекта наряду с обработкой изображений. По идее профессия популяризуется. Но сложность в том, что само слово лингвист как название профессии очень неясное: для многих оно обозначает не боле чем профессиональное знание языков. Нам постоянно приходится преодолевать это представление о лингвистике, отделяя нашу профессию от гораздо менее точной филологии или преподавания. Мы имеем в виду теоретическую (или как говорили «структурную») лингвистику, которая рассматривает все языки как проявление единой языковой способности человека, на каком бы языке он не говорил. Для такой обобщённой постановки задачи потребовалась наука, способная оперировать математическими методами и формальными моделями.
А что тогда такое компьютерная лингвистика? Как, например, вариант будущей профессии?
На деле компьютерная лингвистика сочетает в себе две разные профессии. С одной стороны, это та самая лингвистика. Вы интересуетесь естественным языком, его сутью, изучаете разные языки как примеры и используете компьютер как мощный инструмент исследования, естественный способ реализации и проверки ваших моделей. К примеру, современным медикам и биологам он нужен для расшифровки генома. Для современного лингвиста владение компьютерными методами и даже программирование постепенно становятся обязательными профессиональными навыками.
С другой стороны, компьютерная лингвистика может быть направлена вовсе не на исследование языка, а на решение многочисленных полезных задач, где язык используется. Допустим, машинный перевод или распознавание речи. И здесь уже совершенно неважно, какими методами решается задача, лишь бы она решалась успешно.
Уже заинтересовались? С 30 мая по 2 июня в Российском государственном гуманитарном университете пройдёт международная конференция по компьютерной лингвистике и интеллектуальным технологиям «Диалог 2018». Конференция соберёт лучших российских и зарубежных лингвистов, учёных и инженеров.
Председатель программного комитета «Диалога» — Владимир Селегей. Приходите, но не забудьте зарегистрироваться.
Сегодня появились технологии работы с языком, которые основываются не на использовании сложных моделей, придуманных лингвистом, а на результатах обработки огромных массивов данных, например, из интернета. То есть можно обходиться без глубоких знаний о языке и даже без особого интереса к нему. Программист, который окончил мехмат, может с равным успехом решать языковые задачи: например, фильтровать спам, определять мнения пользователей о каком-то товаре или задачи распознавания лиц на картинках. Методы, основанные на анализе больших данных, часто похожи. Задача программиста — сделать какой-то полезный лингвистический «пылесос», а задача лингвиста — понять, как работает язык.
Но что-то объединяет эти две профессии?
Да, конечно. Многим компаниям нужно примирить эти две профессии и научить этих специалистов понимать и слушать друг друга. Для компании ABBYY нужны и программирующие лингвисты, и программисты с интересом к естественному языку. Ведь мы создаём сложные универсальные технологии анализа текстов, когда нужно автоматически извлекать из них полезные знания: факты, разную информацию о персонах и организациях.
Разумеется, есть много частных и относительно простых задач, связанных с анализом языка. Для таких задач могут быть важнее не глубокие знания о языке, а инженерные навыки и владение технологиями анализа данных. Важно, чтобы инженеры и лингвисты могли обмениваться опытом. Для этого и существует конференция «Диалог», на которой уже почти полвека они собираются вместе, чтобы понять, чем они могут быть друг другу полезны.
Насколько возможен переход из одного сегмента в другой? Скажем, ребёнок окончил мехмат, занимается программированием и вдруг его заинтересовал язык. Или, наоборот, за плечами структурная лингвистика, а хочется быть больше программистом.
Здесь работают два базовых фактора — образование и мотивация. Мы знаем много примеров, когда инженеры глубоко погружались в исследование языка, а лингвисты профессионально осваивали статистику, программирование и методы машинного обучения. У нас, например, есть две кафедры компьютерной лингвистики, одна в МФТИ, вторая — в РГГУ.
В сущности, компьютерная лингвистика в техническом вузе — это обучение инженера лингвистике, а в гуманитарном — обучение лингвиста математике и программированию
Для такого нужны мотивированные студенты. На «Диалоге» в этом году будут выступать специалисты, которые вышли из лингвистической среды, но успешно освоили и применяют новейшие технологии машинной обработки данных. А в лучших работах инженеров мы видим серьёзный лингвистический анализ решаемой практической задачи.
Если опуститься чуть ниже по возрасту. Как быть родителям, у кого дети интересуются языком и хочется перевести это в обучение компьютерной лингвистике с расчётом на будущее? Где начинать учиться, в каких школах?
Пожалуй, важный критерий — чтобы в школе преподавал хороший лингвист. В Москве несколько таких школ. К слову, именно в Москве в 60-е годы прошлого века родилась традиция замечательных лингвистических олимпиад, которые теперь проводятся по всему миру. На олимпиадах решаются независимые языковые задачи, например, вы должны разгадать, как устроен язык, которого вы не знаете. Что касается того, как понять, нужно ли это самому ребёнку, — у него должен быть интерес к языку. Причём не просто к изучению, а к тому, как этот язык устроен. Ребёнку должно быть интересно, как всё это выглядит. Ну и снова — для углублённого изучения языка нужна любовь к точности и математике.
Если говорить о центрах обучения, понятно, что это Москва. Есть ли другие города, где в вузах сильные лингвистические направления?
Москва, безусловно, лидирует как в области анализа данных, так и в структурной лингвистике. Прекрасных студентов готовят на Физтехе, в Сколтехе, МГУ, Вышке, РГГУ. Есть отличные вузы по обоим направлениям в Санкт-Петербурге (ИТМО, СпбГУ). Появляются кафедры компьютерной лингвистики в крупных научных центрах по России — в Томске, в Екатеринбурге. А ведь всего лишь пять лет назад мы чувствовали себя пионерами, открывая кафедры компьютерной лингвистики в МФТИ и в РГГУ.
Где потом будут работать эти специалисты? Отчасти уже понятно, но если чуть подробнее. И насколько часто выпускники уезжают из России?
В России сейчас есть много вакансий для компьютерных лингвистов второго типа — с акцентом на инженерные навыки. Необходимость в компьютерном анализе языка сегодня возникает везде: у любой интернет-компании, любого электронного магазина. Везде есть запросы на естественном языке, которые мы хотим обрабатывать автоматически, получая данные для анализа. Если мы говорим о научных лингвистических исследованиях, то в России пока не так много сильных научных центров, и некоторые начинающие исследователи уезжают со студенческой скамьи набираться опыта за границу. Но научный мир не имеет границ, и мы не теряем с ними связи.
Уезжают те, кто больше ориентирован на науку? Но, собственно, что можно сказать в пользу образования в научном направлении? Нужно ли оно вообще, если мы так прекрасно обходимся программистами и машинными данными?
Появление новых технологий data science создало видимость лёгкого решения любой проблемы: определить марку автомобиля по его изображению или породу кота. Есть ситуации, когда лёгкого решения нет. Например, не хватает обучающих данных. Машинные методы хорошо работают на больших данных, поиске чего-то «под фонарём». Мы видим ошеломляющие достижения в распознавании речи, лиц.
Почему? Благодаря новым алгоритмам? Вовсе нет — многие алгоритмы хорошо известны уже почти полвека. Это во многом произошло благодаря новым компьютерам, которые позволили обработать огромные объёмы данных (кстати, в этом сильно помогли компьютерные игры). Допустим, обработка изображений. Интернет генерирует колоссальное количество изображений с подписями, которые могут быть использованы как накопленные и обработанные данные для нейронных сеток. Но когда данных мало (если на картинке изображено что-то редкое), такие методы не срабатывают. И это одна из проблем будущего — как решать задачи, для которых мало данных. Таких задач очень много, например, в области текстовой аналитики. Тут часто срабатывают гибридные технологии, когда явное лингвистическое знание соединяется с анализом данных.
Если мы вернёмся к рынку специалистов. Что можно сделать, чтобы от нас не уезжали молодые учёные в вашей отрасли?
Сегодня ситуация в компьютерной лингвистике изменилась — раньше индустрия и наука были отдельно, а теперь они сильно взаимодействуют. Компании-лидеры, например, Google, стали вкладывать в академическую науку серьёзные ресурсы. Так, Google создаёт и выкладывает в открытый доступ библиотеки методов машинного обучения, которыми пользуются десятки тысяч специалистов по всему миру. Это привлекает в такие компании творческих людей. Россия должна идти по такому же пути, соединяя интересы бизнеса и науки. У нас, в ABBYY, есть возможности и для разработчиков, которые ориентированы на карьеру в бизнесе, и для специалистов, кто хотел бы заниматься научной деятельностью. Мы создали исследовательский отдел, чтобы наши специалисты могли заниматься наукой.
Ещё одна важная вещь для развития науки — система открытых научных соревнований. На «Диалоге» каждый год проводятся тестирования различных лингвистических технологий (Dialogue Evaluation). В этом году они впервые посвящены автоматическому определению значений многозначных слов в русскоязычных текстах. Решения, которые предложат специалисты (а среди них есть и студенты), будут опубликованы в свободном доступе, каждый сможет посмотреть на результаты, использовать их в своих проектах.
А что касается самих выпускников, куда они стремятся — в науку или быструю самореализацию на рынке труда? И чем отличаются студенты сейчас от тех, например, которых вы помните из своей молодости?
Начиная с 90-х годов студенты стали ориентироваться на карьеру и быструю самореализацию. Сейчас это сохранилось. Современные студенты, владеющие методами анализа данных, понимают, что они могут быстро найти высокооплачиваемую работу: даже относительно поверхностные знания дают большие возможности. Поэтому неудивительно, что многие студенты выбирают не научные исследования, а прикладные задачи.
Что касается того, какие они, современные студенты. Сегодня каждый студент сидит с компьютером. Преподаватель находится в сложном положении: если ты скажешь что-то не то, студент, который сидит в интернете, может обнаружить оплошность и тут же задать неудобный вопрос. Лично у меня это не вызывает дискомфорта, я предпочитаю мотивированных студентов безразличным. Часто на занятиях возникают интересные диалоги со студентами. Допустим, зачем нужна такая модель, если всё может сделать нейронная сетка. Когда ведёшь такие разговоры, учишься сам.