Искать реферат        
Рефераты на 5 с плюсом
С нашим сайтом написать реферат проще простого

Морфологический анализ

Категория: Лингвистика     версия для печати   

Страница: [1] [2] [3] [4] [5]

В процессе морфологического анализа легко выделяются следующие основные моменты, общие для разных языков и алгоритмов:

Поиск словоформы (или остатка) в определенных списках морфем (в таблицах). Под поиском понимается последовательное сравнение текстовой единицы (словоформы или остатка) с элементами списка (с основами, префиксами или суффиксами) до тех пор,пока элемент списка побуквенный не «уложится» слева направо к текстовой единицы, обрабатываемой.

Выбор нужного элемента из нескольких возможных. Здесь имеется в виду случай, когда в текстовой единицы одновременно могут вкладываться различные морфемы (омонимические или сопряженные). Необходим выбор делается на основе специальных пометок, приписанные морфемами отображают их сполучнисть. Так, с помощью пометок при основе избирается правильный суффикс (из нескольких, которые вкладываются в этот окончания); при рассекающий остатка на суффиксы может быть исправлена ??ошибка, ее допустили раньше (при отсечение основы) и т.д.
< br> Выбор информаций до отдельных морфем и объединения этих информаций вобщую информацию к словоформе, которая анализируется.

Выявление индивидуальных особенностей морфем (если такие особенности есть) и учета влияния этих особенностей на общую информацию к словоформе.

Выбор дальнейших действий после того, как завершена обработка следующей морфемы. Последовательность действий обычно определяется свойствами только обработаннойморфемы.

Конкретное содержание этих пяти основных моментов морфологического анализа изменяется в зависимости от алгоритма, но сами эти моменты остаются в принципе неизменными. Не обязательно все пять моментов имеют место: второй и четвертый могут вообще отсутствовать (например, в языке, где нет морфем, что совпадают и где морфемы не имеют индивидуальныхособенностей). Важно лишь то, что для описания морфологического анализа вышеприведенных моментов достаточно.

Наиболее сложным из указанных моментов морфологического анализа является второй — избрание нужного морфемы в случае омонимии, полной вложенности и сопряженности морфем. Если бы в языках не было всех этих «опасных» пение паданий морфем, то морфологическийанализ осуществлялся бы несколькими стандартными, чрезвычайно простыми операциями. Вообще, главная скланисть автоматического перевода в целом — это внешнее (в данном случае, графическое) совпадение языковых элементов, по-разному переводятся и поэтому содержат различную информацию. Такое пение падание приводит к задаче различения и выбора, без которой анализпри автоматическом переводе сводился бы к элементарных преобразований.

Естественно. что проблема омонимии (в широком понимании термина), т.е. задача различения и выбора, занимает важное место в морфологическом анализе. Морфологический анализ должен обеспечивать правильный разбор таких случаев совпадения, которые принципиально (человеком) могут бытьпроанализированы при рассмотрении изолированных словоформ, без обращения к контексту. Должно правильно раскладываться совпадение отдельных морфем при условии, что не совпадают целые словоформы. Не могут и не должны однозначного разлагаться случаи, когда имеет место полное совпадение словоформ. Считается достаточным, если все такие случаи будет каким-то образомвыделено для дальнейшего разложения.

Основные моменты морфологического анализа, приведенные выше, имеют такой общий характер, что сами по себе они являются тривиальными. Однако они позволяют мыслить весь процесс морфологического анализа четко и компактно, хотя и в общем виде. Для практической разработки морфологического анализа эти основные моменты необходимоконкретизировать, точно описав отдельные алгоритмы, с помощью которых они будут осуществляться и которые все вместе составят алгоритм морфологического анализа. Необходимо построить некий общий алгоритм морфологического анализа, или разработать такую ??общую форму для алгоритмов морфологического анализа, которая окажется достаточным (хотя порой и слишком расширенной)для многих языков, которые уже существуют, а также теоретически могут существовать.

Ниже описаны один из возможных вариантов такого общего алгоритма морфологического анализа.

Однако следует иметь в виду, что общая схема морфологического анализа изложены здесь не полностью. Дело в том, что, хотя поиск словоформ в словаре основ принципиально не отличаетсяот поиска остатков в таблице суффиксов, поиск в словаре основ представляет собой в известной мере самостоятельную задачу. Это связано с многочисленностью основ. Большой объем словаря основ (сравнительно с таблицами суффиксов) обуславливает специфические условия поиска в нем, извлечение информации и тому подобное. Поэтому считается целесообразным условно разделить морфологический анализ на два алгоритма:"Поиск в словаре основ" и «Собственно морфологический анализ». Здесь вообще не рассматривается первый алгоритм. Не рассматривается также отсечение префиксов, поскольку оно тесно связано с поиском в словаре основ и является

разделом этой части анализа. Речь идет о морфологический анализ с того момента, когда от словоформы уже отделены префиксы и однаоснова. Подразумеваем морфологический анализ соответствующего остатка и считаем, что мы имеем словарную информацию об основе, что отхватили (а также о префиксы, если они были).

Общий вид алгоритма морфологического анализа

В общем виде алгоритм морфологического анализа (без поиска в словаре основ) состоит из пяти частей.

ЧастьА — «Общие правила» — является основной частью алгоритма (собственно алгоритмом) и представляет собой набор правил, определяющих последовательность операций и взаимодействие остальных частей.

Часть Б — «Список суффиксов» — содержит перечень суффиксов данного языка вместе с некоторыми указаниями, которые необходимы для их правильной обработки («вспомогательными информациями»).

ЧастьВ — «Список информаций до суффиксов» (иначе — «Стандартный запись»), содержит перечень «основных информаций» до тех суффиксов, содержащихся в части Б (под «основной информации к суффиксу» подразумевается та информация, которую предстоит перенесен в информации к словоформе).

Часть Г — «Нестандартный запись» — это набор указаний об индивидуальныхособенности суффиксов сообразно с особенностями основ а также о том, как эти особенности должны быть учтены.

Часть Д — это таблица, где перечислены случаи, когда полностью совпадают некоторые формы от разных основ (при том, что другие формы от этих слов — разные).

Пяти частей, приведенные выше, достаточно для представления алгоритма морфологическогоанализа целого ряда языков. Части А, Б, и В необходимы; части Г и Д могут отсутствовать.

Части алгоритма могут делиться на разделы.

Перейдем к описанию внутреннего строения частей алгоритма.

Внутреннее строение алгоритма

Часть А — «Общие правила»

Часть А представляет собой определенную последовательность правил, изложенныхв терминах так называемых алгоритмических операторов. Оператор — это стандартная часть алгоритма, повторяется, для которой можно создать стандартную программу реализации.

Часть А состоит из десяти разделов, среди них разделы И. III, V и VI являются обязательными для любого алгоритма, а остальные разделов может отсутствовать.

Каждый раздел имеетвыполнять определенную содержательную задачу, и его работа всегда приводит к определенному результату. Для всех разделов определено, какие результаты (условно) считать положительными, а какие — отрицательными. Для каждого раздела также указывается, куда следует переходить в случае того или иного результата.

Следовательно, часть А работает следующим образом:

При морфологическогоанализа отдельных словоформ отличают обработку «нормальных» случаев (разделы II-VI) и «особых» случаев (разделы VII-X). «Нормальные» случаи — это словоформы, для которых было найдено правильную основу и остатки которых (если запасы есть) состоят только из суффиксов, при этом в этих суффиксах не имеют место графические дежурство. До «нормальных» случаевотносятся большинство словоформ текста в таких языках, как русский, украинский, английский, французский, венгерский и др.. «Особые» случаи — это или словоформы, для которых найдено ложную основу (вследствие омонимии или сопряженности основ), или словоформы с остатками, содержащие, кроме суффиксов, еще и основу («сложные слова»), или словоформы, имеющие графическиедежурство в суффиксах. Словоформы, относящиеся к «особым» случаев, обычно составляют меньшинство словоформ текста.

Страница: [1] [2] [3] [4] [5]

версия для печати

Читайте также:
Mark Twain: A Biographical Summary
Постиндустриальный вектор в Украине
Вирусный гепатит А
Николай Хвылевой
Вредные привычки: курение