Конец ABBYY — это конец большой мечты. Мечты, которая родилась много десятилетий назад, задолго до самой компании. Мечты о том, что лингвистическая теория — то есть все те способы моделировать язык, которые придумали ученые-лингвисты, — поможет сделать наиболее точные инструменты автоматической обработки языка. Ведь это логично: чтобы создать атомную бомбу, надо понять устройство атома и атомного ядра. А чтобы создать машинный переводчик или систему автоматического извлечения информации из текста — надо понять устройство языка. Так?
На самом деле нет. По крайней мере всё, что мы знаем на сегодняшний день, указывает на обратное. Чем более успешными становились прикладные системы работы с естественным языком (информационный поиск в интернете, машинный перевод, распознавание речи, чатботы-ассистенты), тем меньше в них оставалось какой бы то ни было лингвистики. Этот тренд был замечен еще в конце 80-х — начале 90-х, когда в Америке стала популярной фраза, приписываемая Фредерику Елинеку, руководителю разработок по распознаванию речи в IBM:
«Каждый раз, когда мы увольняем лингвиста, качество работы системы повышается»
Фредерик Елинек
История компании ABBYY — это история трех десятилетий попыток опровергнуть этот обидный для лингвистов афоризм. Попыток, которые стоили десятки миллионов долларов, но так и закончились ничем.
...
... лингвисты в ABBYY уже были: они работали и над наполнением словарей, и над созданием лингвистических моделей для улучшения распознавания в том же FineReader.
Во времена, когда компьютеры были слабыми, машинное обучение работало плохо из-за недостатка данных и примитивности алгоритмов, а нейросети оставались маргинальным направлением исследований и не применялись на практике, способность программы использовать какую-нибудь формальную модель — например, машинную морфологию для приведения слова в начальную форму (‘коню/конями/конём…’ => ‘конь’) — могла дать конкурентное преимущество. К примеру, в конце 1990-х и начале 2000-х машинная морфология была одним из факторов конкуренции Яндекса с Рамблером. В FineReader тоже была встроена морфология для многих языков, что позволяло программе отрабатывать лучше конкурентов.
Руководствуясь этим опытом, ABBYY двинулась покорять машинный перевод. На вооружение были приняты модели цельного описания языка, развивающие идеи лингвистов И.А. Мельчука (не пропустите его интервью «Системному Блоку»), А.К. Жолковского, Л.Н. Иорданской и Ю.Д. Апресяна — в первую очередь Модели «Смысл ⇔ Текст» и Толково-комбинаторного словаря.
...
Основная идея модели «Смысл ⇔ Текст» — сопоставление множества языковых выражений некоему смысловому инварианту. Скажем, фразы «Страна Р напала на страну У», «Страна У была атакована страной Р», «Страна Р развязала против страны У войну» и т.п. могут быть языковыми выражениями одной ситуации, которую на смысловом уровне можно выразить, например, так:
Действие: Агрессия
Агрессор: Страна Р
Жертва агрессии: Страна У
Поскольку такой смысловой инвариант оказывается в значительной степени универсален, при описании в рамках модели более одного языка становится возможным построение системы машинного перевода. Модель «Смысл ⇔ Текст», точнее, её смысловой уровень в таком случае выступает чем-то вроде интерлингвы, т.е. общего межъязыкового хранилища смыслов, к которому с разных сторон «привязаны» варианты выражения смыслов на разных языках. Считываем текст на одном языке, переводим на уровень интерлингвы, выбираем выражение смысла на другом языке… А чтобы порождать из смыслов грамматически правильные и верно выражающие их тексты, в модель должны быть вшиты ограничения целевого языка на всех уровнях: морфология (т.е. правила изменения форм слова), синтаксис (т.е. правила построения высказываний из множества слов), семантика (т.е. правила кодирования значения и смысловых сочетаний в конкретном языке).
...
В 2006 году, когда в ABBYY все еще продолжали строительство своей «Вавилонской башни» с формальным универсальным описанием языка, Google выпустил самую первую модель переводчика Google Translate. Тогда он работал очень плохо и порождал кучу мемов в стиле «охладите траханье», но гораздо важнее, что при создании практически не понадобились лингвисты. Гугл-переводчик был построен на принципиально ином подходе — статистическом. В нем не было никакой явно описанной языковой модели — он просто видел огромное количество примеров.
...
Появление Google Translate довольно быстро сломало игру. Какие бы проблемы ни возникали там в начале, у системы было главное преимущество — масштабируемость. Вам не нужны были сотни лингвистов на зарплате, чтобы по крупицам описывать правила перевода из одного языка в другой — достаточно было докинуть еще больше примеров перевода. А таких примеров становилось все больше: любые оцифрованные переводы книг, заседания многоязычных парламентов с параллельными транскриптами на разных языках… да хоть многоязычные этикетки от дезодоранта, где написано одно и то же на английском, болгарском и казахском. Все это идет в ход для статистического машинного переводчика. Данные копились как снежный ком. Обогнать статистику в машинном переводе было уже невозможно, даже если бы ABBYY наняла для описания языков всех лингвистов России.
...
В 2009 году исследователи из Google отрефлексировали успех этих data-driven подходов к задачам обработки естественного языка в статье The Unreasonable Effectiveness of Data, что можно перевести как «Необъяснимая эффективность данных». В этой статье советовали при любой возможности опираться не на рукописное моделирование, а на подходы, в которых можно использовать много данных:
«Так что следуйте за данными. Выбирайте такие представления, которые могут использовать обучение без учителя на неразмеченных данных, ведь таких данных гораздо больше, чем размеченных».
The Unreasonable Effectiveness of Data
«Для многих задач слова и последовательности слов — это все, что нам нужно чтобы обучаться на текстах».
The Unreasonable Effectiveness of Data
Можно заметить, что дальнейшее развитие прикладного NLP и в частности взлет больших языковых моделей (LLM) происходил в точном соответствии с этими заветами из 2009 года. Языковые модели пользуются именно возможностью предобучаться на гигантских массивах неразмеченных данных, решая задачу предсказания следующего слова.
...
К началу 2010-х ABBYY оказалась в ситуации, когда затраты на разработку Compreno достигли 80 миллионов долларов, а рынок, на который она должна была выходить, был захвачен статистическими переводчиками. При этом нельзя сказать, что система не получилась: она работала и временами впечатляла филигранностью перевода, обеспеченного тонким и точным описанием отдельных фрагментов языка. В интернете до сих пор можно откопать свидетельства того, как Compreno с элементами черри-пикинга примеров поражала отдельных журналистов. А главное, Compreno стала любимым детищем огромного количества людей, вложивших туда свой труд и свой интеллект. Закрывать этот проект в компании никто не хотел. Но никаких шансов тягаться с Google Translate у ABBYY не было.
...
Удивительно, но попытки использовать Compreno не прекращались в компании ABBYY до самого конца её существования. Даже когда в 2017-2018 началось победное шествие нейросетей на трансформерной архитектуре, давшее старт сегодняшнему торжеству больших языковых моделей, в ABBYY продолжали цепляться за этот «чемодан без ручки», пытаясь соединить рукописную языковую модель Compreno и нейросетевые подходы. И вероятно, продолжали бы и дальше, если бы не 2022 год.
...
Чему нас может научить история ABBYY
В 2019 году была написана еще одна статья, в чем-то похожая на упомянутую выше Unreasonable Effectiveness of Data, но сформулированная еще более категорично. Текст был написан одним из пионеров обучения с подкреплением Ричардом Саттоном и назывался The Bitter Lesson («Горький урок»). Статья начинается такими словами:
Главный урок из 70 лет исследований ИИ — это то, что самые общие методы, опирающиеся на масштабирование вычислений, намного эффективнее всех остальных.
The Bitter Lesson
Основная идея текста: каждый раз, когда в области искусственного интеллекта кто-то пытается решить задачу через сложные рукописные модели, которые пытаются формально описать некую область знаний, это приводит в тупик. На коротком промежутке такая модель может помочь, но ценой будет невозможность масштабирования. За кратковременным улучшением последует стагнация, деградация и в конечном итоге смерть системы. В некотором смысле формальное моделирование становится своего рода костылём в системе. А любая правиловая система таким образом — системой, целиком едущей на костылях. Вот моя любимая цитата из статьи Саттона, которая формулирует суть горького урока:
Мы всё ещё не усвоили этот урок полностью, так как продолжаем допускать те же ошибки. Чтобы это понять и эффективно им противостоять, нужно осознать, в чем соблазн этих ошибок. Мы должны усвоить горький урок: встраивание в ИИ того, как, по нашему мнению, устроено наше мышление, не работает в долгосрочной перспективе. Горький урок заключается в том, что: 1) исследователи ИИ часто пытаются встроить знания в свои системы, 2) это помогает в краткосрочной перспективе и приносит удовлетворение, но 3) со временем этот подход приводит к застою, а 4) прорывы происходят благодаря другому методу — масштабированию вычислений через обучение и поиск. Этот успех вызывает горечь, потому что он идет вразрез с более приятным человеко-центричным подходом.
The Bitter Lesson
Все это применимо к ABBYY на 100 процентов. Компания очень хотела сделать всё «по науке», т.е. в соответствии с теми теориями, которые придумали лингвисты XX века, чтобы как-то систематизировать описание естественного языка. Но в значительной степени эти теории нужны для того, чтобы представить язык как логично устроенную систему, понятную человеку и как бы объяснённую человеком. То есть они нужны как объяснительные модели для самого человека. Горький урок состоит в том, что для создания функциональной модели языка и языковых компетенций на компьютере всё это оказалось не только ненужным, но и даже прямо вредным.
Горький урок ABBYY: как лингвисты проиграли последнюю битву за NLP
Комментариев нет:
Отправить комментарий