понедельник, 4 ноября 2024 г.

как лингвисты проиграли последнюю битву за NLP

 Конец ABBYY — это конец большой мечты. Мечты, которая родилась много десятилетий назад, задолго до самой компании. Мечты о том, что лингвистическая теория — то есть все те способы моделировать язык, которые придумали ученые-лингвисты, —  поможет сделать наиболее точные инструменты автоматической обработки языка. Ведь это логично: чтобы создать атомную бомбу, надо понять устройство атома и атомного ядра. А чтобы создать машинный переводчик или систему автоматического извлечения информации из текста — надо понять устройство языка. Так?

На самом деле нет. По крайней мере всё, что мы знаем на сегодняшний день, указывает на обратное. Чем более успешными становились прикладные системы работы с естественным языком (информационный поиск в интернете, машинный перевод, распознавание речи, чатботы-ассистенты), тем меньше в них оставалось какой бы то ни было лингвистики. Этот тренд был замечен еще в конце 80-х — начале 90-х, когда в Америке стала популярной фраза, приписываемая Фредерику Елинеку, руководителю разработок по распознаванию речи в IBM:

«Каждый раз, когда мы увольняем лингвиста, качество работы системы повышается»
Фредерик Елинек

История компании ABBYY — это история трех десятилетий попыток опровергнуть этот обидный для лингвистов афоризм. Попыток, которые стоили десятки миллионов долларов, но так и закончились ничем. 

Теория, эксперимент и фальсифицируемость

 

"Насколько я понимаю - физик в основном работает все же с опровержимыми теориями. И проверяет их как раз посредством измерений. При чем теория направляет и определяет его эксперименты, которые являются по отношению к ней вторичными, то есть проверками. Это говорил Поппер, и это, наверное, правда. Сначала нечто считается на бумаге (на компьютере), потом меряется. Нет?" (Елена Косилова)
 
Ну, давайте я попробую рассказать, как работаю я и мои коллеги. Важно при этом подчеркнуть - это мейнстримная наука. То, что мы делаем что-то "важное" и делаем это "хорошо" - можно обсуждать и опровергать, но мейнстримность вполне измерима формальными показателями (публикации, цитируемость, доклады на конференциях, гранты, премии, членство в научных сообществах и т.п.). Более того, и с "экспертными оценками" тут ситуация вполне однозначна. Скажем, у наших коллег из теории струн с цитируемостью, наградами и т.п. все более чем в порядке, но время от времени кто-нибудь из мейнстримных (см. выше) физиков или математиков публично заявляет, что теория струн - это какая-то неправильная наука.
 

четверг, 17 октября 2024 г.

Ловушка самоочевидных целей

vit_r

Любое управление -- это многопараметрическая оптимизация. В переводе на русский она обычно обозначается как многокритериальная оптимизация, но параметры мне нравятся больше чем критерии.

Грубо говоря, многопараметрическая оптимизация представляет из себя задачу балансировки взаимоисключающих целей. Достижение одних, мешает или полностью исключает достижение других.

И хороших решений нет, потому что препятствием является не сложность поиска идеального ответа, а сама структура системы, исключающая его существование.

На это накладывается тот факт, что любая реальная система не может быть сведена к линейным задачам, как это любят представлять в теории автоматизации принятия решений, которую менеджеры пытаются применять вместо мозгов.

Практически всегда мы имеем дело со сложной несбалансированной системой с внутренними нелинейными связями и напряжениями, часть из которых известна, часть понята неправильно, а часть или непонятна, или банально не фиксируется имеющимися системами наблюдения.

То есть, цели не только противоречат друг другу, но ещё и обманчивы. Пойдя в одном направлении, можно уйти совершенно в другую сторону и, даже, оказаться в итоге значительно дальше от желанной цели.

А напряжения приводят к тому, что нелинейная модель ещё и не описывается гладкими функциями. То есть, при изменении параметров система может внезапно ускорить движение в неожиданном направлении или, вообще, структурно сломаться.

воскресенье, 7 июля 2024 г.

Пять разновидностей истории

 

Дмитрий Травин

«А как было в истории?» – часто спрашивают меня. Отвечать на это вопрос сложно, поскольку существует, как минимум, пять разновидностей истории. И восприятие спрашивающего зависит от того, что он хочет услышать.
 
1. «Школьная история» или «история для ленивых», как назвал совокупность простых стандартных схем один ученый. Эти схемы предназначены для наиболее простого и быстрого запоминания людьми, которым, в общем-то всё это совершенно не нужно. Откровенного вранья в такой истории мало, если, конечно, школа не идеологизирована, но и пользы особой от изучения нет. «История для ленивых» – это что-то вроде макета сложного механизма: можно понять, как он выглядит, но работать эта штука никогда не будет.
 
2. «История для обывателей» – это совокупность скандалов, сплетен, биографий полководцев, революционеров и секссимволов, а для наиболее «продвинутых» потребителей – это конспирологическая схема исторического развития. «Обыватель» в отличие от «ленивого» заинтересован в «историческом продукте», но потребляет его только в виде развлечения. Поэтому «история для обывателей» гораздо дальше от реальности, чем история для ленивых.
 
3. «История для политиков» похожа на «история для обывателей», но служит не для развлечения, а для формирования послушной серой массы. Здесь меньше скандалов, но больше героических биографий. История предстает не в виде тайных схем, а в виде вечной борьбы наших светлых героев с их гадкими преступниками. Потребитель у историй для политиков и обывателей – один и тот же, но производитель разный. «История для обывателей» должна хорошо продаваться, тогда как за «историю для политиков» можно даже приплатить потребителю. Когда он проголосует, за кого надо, деньги к политикам вернутся.
 
4. «История для историков» прямо противоположна двум предыдущим историям. Она предельно правдива. До мельчайших деталей, которые редким историкам интересны. А поскольку стопроцентно точной правды о прошлом не знает никто, «история для историков» существует еще и в ряде вариантов. Потребителей этой истории можно пересчитать по пальцам. Но ее производители этим не огорчены. Они даже гордятся тем, что «чернь» их не читает. Причем главная проблема здесь даже не в том, что история скучно написана, а в том, что она не отвечает на вопросы, интересующие общество.
 
5. «История для интеллектуалов». Она отличается минимально возможной политизацией, интересом к актуальным проблемам развития общества, скептическим отношением к конспирологии и стремлением заинтересовать читателя, а не редакторов узкоспециализированных журналов. Для «ленивых» эта история сложна, для «обывателей» – скучна, для «политиков» – подозрительна, для «историков» – примитивна. При небрежности авторов она очень быстро скатывается до уровня обывателей. Но лишь эта история может дать нам более-менее адекватные представления о прошлом.

воскресенье, 23 июля 2023 г.

UA Пауза (k) 2:03:37 / 3:22:01 Заменит ли Искусственный Интеллект Человека? / Технологическая Сингулярность

 

Юрий Окуловский, Senior Data Scientist, PhD и основатель "Witness of singularity".
...У Харари хорошо сказано, ...
...когда что-то превосходит человека по интеллектуальным способностям, оно придумывает свой язык.
И описание действительности этим языком, порождает бытие которое нам совершенно недоступно, потому что оно находится в другом словаре.
 
Это очень легко проилюстрировать, ...,
Известно, что в человека можно вбить формальную логику. Это очень непросто, я пару раз вел пары на филологическом факультете, я должен сказать что это очень непросто. Но, если это делать последовательно и целенаправлено, то можно в человека вбить логику, лет до 25ти. Потом уже поздно.
И можно сделать так, что человек будет логически верифицирвать все что он говорит и делает.
 
Но! Вот вероятностный вывод в человека уже не вбить. Невозможно сделать так, чтобы человек все свои выводы валидировал вероятностным выводом.
И вот все ошибки мышления, ... их можно решить. А вот все что связано с байесовскими хитростями, вот эти ошибки мышления, их ликвидировать уже невозможно. Ты каждый раз должен садиться и считать. И только так ты поймешь - ошибся ты в данном случае, или нет. Пока ты не взял в руки бумагу и ручку, ты этого не поймешь.
 
Соответветственно мы не можем интернировать вот эту вероятностную интерпретацию мира в себя. Поэтому мы думаем в бинарных категориях, или А, или Б. На самом же ведь деле, оно с такой-то вероятностью А, и с такой-то Б, и с диапазоном других В, Г, с вероятностями, которые в итоге выстреливают.
Если ИИ удастья овладеть этим языком описания действительности, что весьма вероятно, потому что он на этом и основан, мы не сможем понять ни его логику, ни его выводы
 

 

вторник, 11 июля 2023 г.

«всем известно» или «да это же элементарно и всё знают»

 

 
Продолжая по касательной пост про образование и анализ данных - тут мем как раз прекрасный попался на эту тему.
Вы знаете, как формируется *огромное* количество так называемого „common knowledge“ в современном мире - ну типа такого, про которое говорят «всем известно» или «да это же элементарно и всё знают» и прочее? 

понедельник, 17 апреля 2023 г.

Not a hill to die on

Если бы меня попросили свести философию американского общения к одной единственной формулировке, то я, пожалуй, выбрал бы такую:

Not a hill to die on. Не тот холм, на котором стоит умирать

Это выражение употребляют, когда хотят избежать ненужного спора или конфликта. Говорят тебе допустим “Страшнее кошки зверя нет”. А ты отвечаешь, что может и есть, но принимать свой последний бой на этом холме ты не будешь. В плане - тебе фиолетово, и ты не хочешь спорить на эту тему 

Русскую же философию общения, в противоположность американской, можно было бы описать так:

Every hill is a hill to die on

Именно так классический постсовок мог бы ответить политкорректному американцу

Ведь откуда берется американская политкорректность и обтекаемость? Из желания минимизировать ненужные конфликты. Вопрос - а зачем их минимизировать? Потому что они пожирают ресурсы и энергию, которую можно было бы направить на действительно важные дела.
(c) Камиль Галеев

среда, 23 марта 2022 г.

Российское общество не готово к всеобщей мобилизации

 Научный сотрудник Политехнического университета Вирджинии (США), кандидат политических наук Мария Снеговая рассказала UKRLIFE.TV о военных настроениях в российском обществе. Интервью провела Людмила Немиря. Читайте канал Марии Снеговой в Telegram: https://t.me/mariasnegovaya

 


 

вторник, 15 марта 2022 г.

Виновата ли «русская культура»?

То, что мы наблюдаем сейчас в России, — победа великой русской культуры. Сейчас на кремлевском троне сидит тот самый маленький человек, духовный сын Акакия Акакиевича или даже сам Акакий Акакиевич. Только он волею судеб — все того же античного Фатума — дополз до верхушки карьерной лестницы. И шинелей у него теперь полный шкаф. И стол необозримый. И бояре перед ним пополам складываются. И красной кнопочкой он играется, как изящным брелоком.
Но сам он по-прежнему маленький и теряется в грохоте истории, как блоха в меховом воротнике. Русская культура всю свою историю лелеяла чмо — и оно выросло, расцвело, того и гляди покроется ядерными грибами.
Но так и не повзрослело.
 
Виновата ли «культура»?
 
Да. Поскольку культура — это не Большой театр, не Репин с Кандинским, и даже не Лев Толстой с романом «Спецоперация и мир». Не набор артефактов, как нас учила советская еще школа и как нравится думать всем любителям «великой русской культуры», апеллирующей к шедевра.
...
Культура — это, в первую очередь, система ценностей, положенная в основу мировоззрения конкретного человека и целого сообщества. И если в рамках некой «великой культуры» выросло поколение людей, способных большинством голосов поддержать ракетный обстрел родильного дома, ни Достоевский (что там про «слезинку ребенка»?), ни даже весь репертуар Мариинского театра не может эту культуру оправдать.
...
В том, что происходит сейчас в Украине, русская культура несет ответственность наряду с российским оружием. Потому что именно она поставляет в российские мозги представления о том, что такое хорошо и что такое плохо.
...
Культура — не заповедник, где можно сохранить одежды белыми (хотя многие «хорошие русские» изо всех сил стараются убедить в этом себя и заодно всех остальных). ...
Культура — это статья обвинения.

zn.ua ART russkaja-kultura 

среда, 5 января 2022 г.

Интеллект — это способность видеть паттерны, cознание, cвобода воли

 

Интеллект — это способность видеть паттерны, cознание, cвобода воли

FB Andrew Potapov

Сегодня хочу поделиться саммари одного из самых интересных подкастов за всю историю подкастов. Йоша Бах (когнитивист, исследователь) + Лекс Фиридман. 2 части (в сумме более 6 часов).
Я, наверное, раз 5 пересушивал первую часть и каждый раз находил в ней инсайты, новые грани и оттенки смысла. Вторую часть я пока прошел наполовину и она не уступает первой. Йоша умеет максимально емко и точно использовать слова и метафоры для описания крайне сложных и контр-интуитивных концепций.
🔗 Интеллект
Интеллект — это способность видеть паттерны.
Чем сложнее паттерны мы можем видеть, тем “выше” у нас интеллект.
Чтобы видеть паттерны, нужно уметь строить модели мира.
Мы строим модели нашего дома, поведенческие модели людей вокруг, модели биологических и экономических взаимодействий. В конечном итоге: всей вселенной.
В отличие от других живых существ, модель мира человека включает его самого. В моей модели мира присутствую Я как субъект, все остальные модели выстраиваются относительно этого Я. Когда AI научится делать так же, возможно он обретет некую форму сознания. Но это не точно…

вторник, 26 октября 2021 г.

Человек не может думать постоянно

До некоторого времени считалось, что люди в большинстве своем мыслят рационально, здраво. А уж если мы здраво не мыслим – значит виной тому эмоции, и только они мешают жить и мыслить рационально. Однако мы даже не предполагаем, что наш мозг просто изначально запрограммирован на совершение ошибок и принятие неправильных решений.

Спасибо Канеману и его книге «Думай медленно, решай быстро», теперь мы знаем, что мозг наш работает в формате двух систем – системы медленного и быстрого мышления. Он устроен так, чтобы максимально сохранять энергию и при этом получать по максимуму пользы. Когда мы мечтаем, как бы так сделать, чтобы работать поменьше, а получать при этом побольше – это не мы такие плохие, ужасные и меркантильные, это ровно то, что наш организм от нас требует. Мы так устроены. Так что все ОК: мы работаем в режиме энергосбережения.

Наш мозг хранит практически всю когда-либо увиденную и услышанную информацию – каждый листочек каждого дерева, каждый звук в толпе, каждое ощущение – все попадает в некую систему хранения. Конечно, мозг делает все, чтобы мы не сошли с ума, поэтому дает нам возможность забывать всю эту информацию – но при этом хранить ее он не перестает. Никогда. Мы не можем отключить или стереть что-то из памяти по собственному желанию. Каждый раз, когда от нас требуется принять какое-то решение, мы автоматически используем систему быстрого мышления – даже не задумываясь об этом, оно вообще «как-то само».