понедельник, 4 ноября 2024 г.

как лингвисты проиграли последнюю битву за NLP

 Конец ABBYY — это конец большой мечты. Мечты, которая родилась много десятилетий назад, задолго до самой компании. Мечты о том, что лингвистическая теория — то есть все те способы моделировать язык, которые придумали ученые-лингвисты, —  поможет сделать наиболее точные инструменты автоматической обработки языка. Ведь это логично: чтобы создать атомную бомбу, надо понять устройство атома и атомного ядра. А чтобы создать машинный переводчик или систему автоматического извлечения информации из текста — надо понять устройство языка. Так?

На самом деле нет. По крайней мере всё, что мы знаем на сегодняшний день, указывает на обратное. Чем более успешными становились прикладные системы работы с естественным языком (информационный поиск в интернете, машинный перевод, распознавание речи, чатботы-ассистенты), тем меньше в них оставалось какой бы то ни было лингвистики. Этот тренд был замечен еще в конце 80-х — начале 90-х, когда в Америке стала популярной фраза, приписываемая Фредерику Елинеку, руководителю разработок по распознаванию речи в IBM:

«Каждый раз, когда мы увольняем лингвиста, качество работы системы повышается»
Фредерик Елинек

История компании ABBYY — это история трех десятилетий попыток опровергнуть этот обидный для лингвистов афоризм. Попыток, которые стоили десятки миллионов долларов, но так и закончились ничем. 

Теория, эксперимент и фальсифицируемость

 

"Насколько я понимаю - физик в основном работает все же с опровержимыми теориями. И проверяет их как раз посредством измерений. При чем теория направляет и определяет его эксперименты, которые являются по отношению к ней вторичными, то есть проверками. Это говорил Поппер, и это, наверное, правда. Сначала нечто считается на бумаге (на компьютере), потом меряется. Нет?" (Елена Косилова)
 
Ну, давайте я попробую рассказать, как работаю я и мои коллеги. Важно при этом подчеркнуть - это мейнстримная наука. То, что мы делаем что-то "важное" и делаем это "хорошо" - можно обсуждать и опровергать, но мейнстримность вполне измерима формальными показателями (публикации, цитируемость, доклады на конференциях, гранты, премии, членство в научных сообществах и т.п.). Более того, и с "экспертными оценками" тут ситуация вполне однозначна. Скажем, у наших коллег из теории струн с цитируемостью, наградами и т.п. все более чем в порядке, но время от времени кто-нибудь из мейнстримных (см. выше) физиков или математиков публично заявляет, что теория струн - это какая-то неправильная наука.