zlata_gl: (Default)
[personal profile] zlata_gl
Рекламирую книжку и впридачу - свой собственный "фриковый проект".
Александр Пиперски. "Конструирование языков".
Хорошая книжка "на любителя".
Оказывается, кроме Эсперанто - было много подобных проектов.
Интересная 4-я глава, посвященная трем вполне естественным языкам.
Как Лютер фактически создал литературный немецкий язык (до того фактически существовали только разные диалекты)
Как возрождали иврит
Как объединяли норвежский язык из двух существовавших.
Некоторое количество задачек на лингвистический анализ.
Рекомендую тем, кому в детстве нравилось "Слово о словах" Успенского.

Но очень странно, что я не нашла среди всей этой коллекции - того, что (ИМХО) должно существовать.
Промежуточный компьютерный логический язык. Для систематизации знаний, опубликованных на разных естественных языках. А также - для перевода "с любого на любой".
Интересно, есть ли такой язык ? И как вообще устроен компьютерный перевод ?
Не перевод "Евгения Онегина" и сонетов Шекспира.
Перевод научных статей и всяких новостей.

Назову его условно ПОНИМАЙ.
Как я это себе представляю:
ПОНИМАЙ не предназначен для того, чтобы на нем разговаривать. У него вообще нет фонетики. Не предназначен он и для того, чтобы кто то его "выучил", писал бы на нем.
Он предназначен исключительно для хранения текстов в компьютере.
Это агглютативный язык (как я понимаю это слово еще с Успенского).
То есть - слово состоит из "корня" и множества "суффиксов". То и другое - некоторый код.
Корней намного меньше, чем в естественных языках. Суффиксов - намного больше.
К примеру: корень "движение".
Суффиксы: глагол/существительное/причастие/деепричастие. (один из)
Суффиксы самостоятельно/на транспортном средстве
Суффиксы по земле/по воде/по воздуху
Суффиксы быстро/медленно.
Суффиксы приближение/удаление/перемещение.
Суффиксы совершенный/несовершенный вид (для глагола)
Суффиксы активный/переходный/пассивный.
Суффиксы инфинитив/настоящее/прошедшее/будущее время (для глагола)
Суффиксы мужской/женский/средний род (для существительного, прилагательного,глагола, местоимения)
Суффиксы первое/второе/третье лицо (для глагола и местоимения)
Суффиксы единственное/множественное число.
Суффиксы прямой/косвенные падежи (для существительного, местоимения)
Суффиксы одушевленное/неодушевленное (для существительного, местоимения)

Пример:
Переводим с русского на ПОНИМАЙ:
1. Я ездила в Ухрюпинск.
(1, Подлежащее, личное местоимение, 1 лицо, единственное число, женский род, именительный падеж, ссылка на прямые связи 2),
(2, сказуемое, движение, приближение, глагол, по земле, на транспорте, несовершенный, активный, прошедшее, 1 лицо, единственное число, прямые связи 1 и 3 )
(3, обстоятельство места, имя собственное, куда, координаты в google-map с размером объекта, прямые связи 2) .
Обратите внимание: пытаемся вытянуть ту грамматическую информацию, которой нет в прямом виде в конкретном слове.
"Я" не содержит указания на род. Но эту информацию мы вытянули из глагола и добавили к местоимению.

2. Привезла оттуда новую юбку.
Уже нет "Я, но мы его вставляем. С учетом знаний о том, что это "Я" - женского рода.
(1, Подлежащее, личное местоимение, 1 лицо, единственное число, женский род, именительный падеж, ссылка на 1.1, прямые связи 2),
(2, сказуемое, движение, приближение, глагол, по земле, на транспорте, совершенный, переходный, прошедшее, 1 лицо, единственное число, ссылка на прямые связи 1 и 3 )
(3, обстоятельство места, местоимение, "откуда" ссылка на 1.3, прямые связи 2) .
(4, прямое дополнение, одежда, юбка, женский род, неодушевленное, единственное число, прямые связи 2)
(5, определение, прилагательное, новый, прямые связи 4).

3. Завтра надену ее.
(1, Подлежащее (отсутствующее), личное местоимение, 1 лицо, единственное число, женский род, именительный падеж, ссылка на 1.1, ссылка на прямые связи 2),
(2, сказуемое, применение, приближение, глагол, совершенный, переходный,будущее, 1 лицо, единственное число, прямые связи 1 и 3 )
(3, прямое дополнение, местоимение, 3 лицо, женский род, неодушевленное, единственное число, ссылка на 2.4, прямая связь с 2)
(4, обстоятельство времени, "когда" завтра, будущее, прямая связь с 2).

4. Сейчас я нахожусь дома.

То есть суффиксы приклеиваются с учетом всех слов в данном предложении, а также в предыдущих.
Особенно важен разбор, к каким словам относятся местоимения.

Дальше переводим с ПОНИМАЙ, например на английский. При этом часть суффиксов нужны, а другие - просто игнорируем.
В английском намного меньше словоформ (по родам, числам, лицам), но зато - надо добавлять местоимение. Не зря мы во 2-м и 3-м предложении добавили "Я".
Юбка - неодушевленная, местоимение будет it, а не she.
А в другом языке юбка может оказаться и не женского рода вовсе.
И надо учитывать, что "новую" относится к "юбке". И если в этом языке прилагательные изменяются по родам, то надо привязывать к роду "юбки" в этом языке.

Если переводим на иврит, то можно не добавлять "Я" в прошедшем и будущем, но надо добавлять в настоящем (4-е предложение). И тут нам пригодится знание о том, что это "Я" - женского рода.

В общем, идея понятна.
Потому что сейчас Гугл переводит с русского на иврит через английский, теряя по дороге все связи с родом, числом итп.
И "харедим" становятся "православными".
Уж не говорю о том, что "кошка родила трех котят: серого, рыжего и афроамериканца". :-)
Политкорректненько так...

Френды дорогие !
Особенно [livejournal.com profile] nomen_nescio
Есть такие проекты ?

Date: 2017-04-22 04:35 pm (UTC)
From: [identity profile] varana.livejournal.com
Трансформационно-порождающие грамматики Хомского.
Элементарные семантические признаки Мельчука.

Date: 2017-04-23 02:56 am (UTC)
From: [identity profile] dragon-ru.livejournal.com
Ложбан не будет чем-то похожим? https://en.wikipedia.org/wiki/Lojban

Date: 2017-04-23 07:20 am (UTC)
From: [identity profile] zlata-gl.livejournal.com
Ложбан в книжке упоминается.
Нет, это не то.
Это человеческий язык с фонетикой.
Который не может быть достаточно подробным и информативным.

Date: 2017-04-23 05:38 am (UTC)
From: [identity profile] oldodik.livejournal.com
и не найдете. Команда Апресяна сорок лет билась-билась, но создать такую штуку не смогла. Оказалось практически невозможно описать живой язык с такой точностью, чтоб научить машину его понимать (и соответственно невозможно создать такой понимай вручную)

А сорок лет назад они были такие оптимисты, как вот вы сейчас, ага.

Инфа от самого Апресяна, есличо.

Такшта существующие онлайн-переводчики работают тупо с базами параллельных текстов (и через инглиш идут обычно тупо потому, что на английский тупо очень много всего уже переведено). Яндексу еще ученики Зализняка кое-как объяснили немножко про русский грамматика.
Edited Date: 2017-04-23 05:44 am (UTC)

Date: 2017-04-23 09:31 am (UTC)
From: [identity profile] zlata-gl.livejournal.com
Лет 30 назад я читала книжку "Общение с ЭВМ на естественном языке", кажется - Попова.
Но где мы сегодня - и где ТЕ смешные ЭВМ ?
Я думала, что есть прогресс.
Неужели рост памяти и скоростей во много тысяч раз - ничего не продвинул ?

Date: 2017-04-23 09:54 am (UTC)
From: [identity profile] ahitech.livejournal.com
Анализ семантики языка — проблема NP-полная (https://ru.wikipedia.org/wiki/NP-%D0%BF%D0%BE%D0%BB%D0%BD%D0%B0%D1%8F_%D0%B7%D0%B0%D0%B4%D0%B0%D1%87%D0%B0). На NP-задачи закон Мура оказывает очень маленькое влияние (грубо говоря, чтобы сократить время решения вдвое, характеристики надо возвести в квадрат). Если окажется, что NP≠P (https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D0%B2%D0%B5%D0%BD%D1%81%D1%82%D0%B2%D0%BE_%D0%BA%D0%BB%D0%B0%D1%81%D1%81%D0%BE%D0%B2_P_%D0%B8_NP) (что, судя по всему, и есть на самом деле), то человеческий язык в принципе нельзя будет "понимать" с помощью компьютера за сколь-нибудь разумное время.

И да, вопрос равенства классов P и NP стоит уже больше 40 лет.

проблема NP-полная

Date: 2017-04-23 11:45 am (UTC)
From: [identity profile] zlata-gl.livejournal.com
Не верю.
Если БЫ это было так, люди не могли БЫ читать книги и понимать устную речь.
Вот задача коммивояжера требует такого ресурса - так и человек ее не решает.
Кстати, не решает оптимально.
Но специалист без всякого компа может найти неплохое решение в конкретных условиях.

Re: проблема NP-полная

Date: 2017-04-23 01:50 pm (UTC)
From: [identity profile] ahitech.livejournal.com
Наши мозги устроены сильно иначе, чем компьютер. У нас существуют ассоциативности, и мы можем одновременно выполнять поиск в нескольких разных несвязанных областях данных, интуитивно вычисляя общие детали. Мы умеем понимать сарказм и иронию. Мы вычисляем информацию из интонаций, выражения лица собеседника, его жестов, жёсткости голоса и тона речи. У нас есть с собеседниками какие-то общие предпосылки, которые не упоминаются в разговоре, но являются логической частью выводов; у компьютера таких предпосылок нет, поэтому выводы, которые нам кажутся очевидными, для компьютера будут считаться необоснованными. Я не сторонник мнения, что 93% информации передаются невербально, но какая-то часть действительно передаётся невербально, и компьютер её уловить, разобрать и правильно интерпретировать не может.

Может быть, если бы нам удалось построить нейронную сеть, близкую хотя бы к мозгу примата, нам удалось бы продвинуться в деле понимания речи. Но пока самая большая наша нейронная сеть примерно соответствует мозгу муравья. Для распознания напечатанного текста и для предсказания экономических кризисов этого хватает, но для понимания языка явно мало.

Правительство США в 2014 году выделило грант (https://www.fbo.gov/index?s=opportunity&mode=form&id=8aaf9a50dd4558899b0df22abc31d30e&tab=core&tabmode=list&=) на создание программы, которая будет определять сарказм в социальных сетях. Да, я верю, что у программы получится... :)

См. также тут (https://ru.wikipedia.org/wiki/%D0%9E%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D0%B5%D1%81%D1%82%D0%B5%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D0%BE%D0%B3%D0%BE_%D1%8F%D0%B7%D1%8B%D0%BA%D0%B0).

Re: проблема NP-полная

Date: 2017-04-23 02:29 pm (UTC)
From: [identity profile] zlata-gl.livejournal.com
Спасибо за ссылку.
ИМХО, начать надо с печатного технического текста.
Научные журналы, инструкции к приборам и программам итп.
Игнорируем проблемы интонации, сарказма и юмора.

"для предсказания экономических кризисов этого хватает"
Чо, правда ?

«Мы отдали бананы обезьянам, потому что они были голодные» и
«Мы отдали бананы обезьянам, потому что они были перезрелые»
Хороший пример.
Нужны ЗНАНИЯ, что бананы не бывают голодными. :-)

Я знаю похожий пример:
"Принеси списки студентов, которые сдали экзамен по физике"
"Принеси списки студентов, которые лежат на столе декана"

Вот тут можно применить "поиск по базе".
Но такие фразы встречаются не часто.

Re: проблема NP-полная

Date: 2017-04-23 02:40 pm (UTC)
From: [identity profile] ahitech.livejournal.com
Да почти каждая фраза такая. Вот даже предыдущая. Капутеру надо будет понять, что "такая" относится к фразам, обладающим определённой особенностью, и определить эту особенность. В точности то же самое, что и со студентами. (А в этой фразе компьютеру нужно будет сообразить, что именно было со студентами; ведь в оригинале речь шла не о студентах, а о списках имён... А ещё надо будет осознать, что словосочетание "эта фраза" может относиться не к текущей фразе, но к обсуждаемой фразе, а она может быть сказана довольно давно, и её надо будет определить...)
From: [identity profile] zlata-gl.livejournal.com
Мука не высыпается из мешка
Маруся не высыпается.

А в прошедшем времени:
Мука не высыпАлась (несовершенный вид)
Мука не вЫсыпалась (совершенный)

Маруся не высыпАлась
Маруся не вЫспалась

From: [identity profile] ahitech.livejournal.com
Ну вот именно поэтому дни недели переводятся как Monday, Tuesday, Environment (http://bash.im/quote/397276), Thursday, Friday, Saturday, Resurrection (http://bash.im/quote/397308). Компьютеры сильно хуже людей в понимании контекста, и поэтому сильно хуже в выборе правильного значения слова в зависимости от контекста. Собственно, основное направление Language processing сейчас — это как раз научить компьютер определять контекст. Авось хотя бы тогда он сможет при переводе слова set выбрать близкое к истинному значение из тех пяти десятков, которые у этого слова есть.
Edited Date: 2017-04-26 07:39 am (UTC)

Подумавши

Date: 2017-04-29 09:59 am (UTC)
From: [identity profile] zlata-gl.livejournal.com
Комп не разберется с Марусей и мукой.
Особенно - если не Маруся, а Роза или Лилия.
И со списками студентов.
И с обезьянами и бананами.
Но хорошо бы, если БЫ он хотя бы сам это понял и сделал пометку:
"ОНИ - бананы или обезьяны ?"
"ВЫСЫПАЕТСЯ - сыпать или спать ?"

Подумавши

Date: 2017-04-29 10:11 am (UTC)
From: [identity profile] zlata-gl.livejournal.com
А в иврите для полного счастья:
нет заглавных букв
множество имен типа Сосна, Дуб, Пальма, Куст, Волна, Медведь, Волк, Воробей, Птица
(разумеется, Роза, Лилия и Лев тоже есть).

Однажды я засунула текст на иврите в "Вавилон" (Гугл-переводчика еще не было) и получила
"Израильский фрукт украл 300 миллионов". Это был Исраэль Пери.

Re: проблема NP-полная

Date: 2017-04-23 02:50 pm (UTC)
From: [identity profile] ahitech.livejournal.com
Чо, правда ?

Да, правда. Кризисы предсказываются, и довольно точно. Например, кризис 2008 года был предсказан ещё в 2004-м, и окончательно оформился в августе 2007-го. Вас не удивило, что в этом кризисе практически не пострадали американские компании? Да, разорилось несколько банков, упал курс акций, но в целом США вышли из кризиса очень достойно; в цифрах ухудшилась жизнь всего 20 тысяч американцев. Для кризиса масштаба Великой Депрессии это очень приличный результат. Кризис был успешно экспортирован в Европу: «Европа представляется эпицентром разрушений после мирового финансового кризиса, отмечал в марте 2010 года К. Рогофф» (© Вики), и вот в Европе он был весьма разрушителен. Правда, интересно, как это кризис, образовавшийся из-за проблем американского ипотечного кредитования, ударил в основном по Европе?
From: [identity profile] zlata-gl.livejournal.com
Я думаю, ипотечные банки, впаривавшие лохам свои облигации, прекрасно знали, что делают.
А остальным никто не сказал.
Зайдите в мою предыдущую тему.
Про книжку нобелевских лауреатов по экономике.
Там интересные цитаты на эту тему.

Re: проблема NP-полная

Date: 2017-05-09 06:42 pm (UTC)
From: [identity profile] bomjscienst.livejournal.com
Звучит как какая-то теория заговора если честно.
From: [identity profile] zlata-gl.livejournal.com
Вовсе нет.
Успели впарить свое АО МММ - европейским лохам.
Вспомните 92-94 годы в России !
Без всякого заговора было множество всяких "акций-фикций". Потому что не было законодательства, а народ - вообще не имел опыта понимания, "что это такое".

А почему оно залезло в эту тему ?
У меня несколько "экономических" тем рядом.

Date: 2017-04-23 10:11 am (UTC)
From: [identity profile] oldodik.livejournal.com
Память и скорости, увы, ничего не могут поделать со сложностью языка.
Вот мгновенный перебор баз, это мы получили. Это память и скорости могут.

Date: 2017-05-29 12:06 am (UTC)
From: [identity profile] justy-tylor.livejournal.com
Заходы на интеграционные формальные языки были. В частности:
https://en.wikipedia.org/wiki/Cyc
https://en.wikipedia.org/wiki/ISO_15926 и HQDM
https://en.wikipedia.org/wiki/Gellish

Также, существуют говны https://en.wikipedia.org/wiki/Resource_Description_Framework и https://en.wikipedia.org/wiki/Web_Ontology_Language от W3C, которые ошибочно атрибутируются к этой области, но на деле больше относятся к database modeling, чем к data modeling.

Общая проблема существующих решений - выбирают некий теоретически-красивый базис, а потом пытаются натянуть на него реальность, что приводит к аналогам китайской классификации животных по Борхесу - https://ru.wikipedia.org/wiki/%D0%9A%D0%BB%D0%B0%D1%81%D1%81%D0%B8%D1%84%D0%B8%D0%BA%D0%B0%D1%86%D0%B8%D1%8F_%D0%B6%D0%B8%D0%B2%D0%BE%D1%82%D0%BD%D1%8B%D1%85_(%D0%91%D0%BE%D1%80%D1%85%D0%B5%D1%81)

В системах машинного анализа и перевода текстов такие же таксономии/онтологии, и с теми же проблемами, но самобытные, так что своевременно прохачиваются разработчиками под желаемые результаты.

Date: 2017-05-30 08:08 pm (UTC)
From: [identity profile] zlata-gl.livejournal.com
Спасибо !
Почитаю, если пойму.

Date: 2017-07-01 07:00 am (UTC)
From: [identity profile] zlata-gl.livejournal.com
Старая тема
http://zlata-gl.livejournal.com/61477.html
Что такое "понимать смысл текста" ?

Page generated Jul. 25th, 2017 08:44 am
Powered by Dreamwidth Studios