суббота, 13 августа 2016 г.

network morphology

УДК 811.512 Д. П. Кирьянов, Б. В. Орехов Кирьянов Д. П., Орехов Б. В. СЕТЕВОЙ ПОДХОД К ОПИСАНИЮ БАШКИРСКОЙ МОРФОЛОГИИ

http://nevmenandr.net/personalia/bashmorphnetworks.pdf

Kirjanov Denis P., Orekhov Boris V. NETWORK BASED APPROACH TO THE BASHKIR MORPHOLOGY DESCRIPTION (National Research University Higher School of Economics, Moscow) This study introduces a complex networks-based approach to quantifying agglutination. This approach is one of the most powerful ways of model description but it has been rarely used for linguistic needs and there are very few papers where it is applied to morphology. The Bashkir language belongs to the Turkic languages which are considered to be agglutinative. Although the notion of agglutination was introduced in the 19th century, there is no generally accepted definition of an agglutinative language. Different features were supposed to be necessarily present in an agglutinative language, however, there seems to be no correlation between them. In this study we discuss the data provided by our network and relevant for the notion of agglutination and transcategoriality. We conducted our study on Bashkir newspaper texts containing 5.8 mln tokens overall. They were annotated with the program «Bashmorph». We built a network where nodes are affixes while edges represent cooccurrence of an affix pair. The network was built as weighted (based on the frequency of cooccurrences) and undirected. The network consists of 294 nodes and 3446 edges. It turns out that several standard coefficients characterizing such a network help to quantify and describe certain characteristics of a language. In our case, most parameters correspond to agglutination. Namely, we discuss the meaning of assortativity coefficient, cliques number, maximal k-core, cluster coefficient and network density as well as some other data. Keywords: networks, bashkir language, morphology

 

image


Статья посвящена современному, основанному на теории графов (в западной терминологии — сетей), подходу к описанию свойственной тюркским языкам морфологической агглютинативности. Несмотря на то, что понятие агглютинативности известно с XIX века, в научной среде нет однозначного консенсуса относительно того, какими именно чертами должен обладать язык, чтобы считаться агглютинатив- ным. Например, в энциклопедическом словаре мы находим определение, основанное сразу на ряде признаков: «[для агглютинативных языков] <…> характерны развитая система словообразовательной и словоизменитель- ной аффиксации, отсутствие фонетически не обусловленного алломор- физма, единый тип склонения и спряжения, грамматическая однознач- ность аффиксов, отсутствие значимых чередований» [15, с. 511] . Единственный параметр, которым пользуется при подсчёте индекса агглютинативности в своей хрестоматийной работе (по всей вероятно- сти — первой работе на данную тему в квантитативном ключе) Джозеф Гринберг, — это наличие/отсутствие фузии: «Если оба морфа в конст- рукции являются автоматическими вариантами морфем, то такая конст- рукция называется агглютинативной. Индекс агглютинации — это от- ношение числа агглютинативных конструкций к общему числу морф- ных швов» [28, с. 185]. Таким образом, агглютинативная конструкция, по Гринбергу, — это такая конструкция, в которой при присоединении аффикса ни сам аффикс, ни основа слова не претерпевают никаких зна- чимых фонологических изменений

индекс кумуляции (Cumulation index): какой процент аффиксов в языке выражают более одного грамматического значения? Предпола- гается (см., например, [44, с. 175]), что в агглютинативных языках один аффикс выражает ровно одно грамматическое значение;

индекс фузии (Alternation index): какой процент грамматических значений может быть выражен (или совыражен) посредством изменения внутри основы слова. Этот индекс похож на индекс агглютинативности Гринберга, но с тем существенным отличием, что рассматриваются из- менения только в пределах основы слова. Предполагается, что в агглю- тинативных языках основа слова (почти) никогда не меняется, именно на этот признак агглютинативных языков обращали внимание лингвис- ты еще в XIX веке (см., например, [45]);

индекс грамматического супплетивизма (Suppletion index). Прин- цип этого индекса состоит в следующем: во флективных языках есть разные парадигмы словоизменения, например, в русском языке у существительных выделяется несколько склонений (традиционно — 3, но возможны и другие точки зрения, см. [7]) а также подтипы внутри каждого склонения. Соответ- ственно, если мы хотим ответить на вопрос типа «при помощи какого аф- фикса в русском языке выражается значение творительного падежа», то полный правильный ответ будет включать в себя несколько аффиксов (-ой, -ем и т. п.). Таким образом, в этом случае мы наблюдаем явление граммати- ческого супплетивизма: одно и то же грамматическое значение может быть выражено разными аффиксами. Предполагается (см. [41]), что в агглютина- тивных языках индекс грамматического супплетивизма (равный числу граммем, в которых это явление фиксируется) должен стремиться к нулю: одно значение может быть выражено только одним аффиксом

 

В результате своего исследования Хаспельмат пришёл к выводу, что эти параметры в действительности не коррелируют (и вышеприведённые нулевые гипотезы про морфологические явления в агглютинативных языках зачастую оказываются неверными); кроме того, языки, принадле- жащие, согласно существующим описаниям, к разным морфологическим типам, могут получать очень близкие значения по рассматриваемым ин- дексам. Таким образом, «после этого исследования, термины агглютинация и фузия сильно потеряли в своей легитимности (кроме тех случаев, когда они употребляются в техническом смысле, который расходится со стан- дартными контекстами)» ([30, с. 27]). Таким образом, вопрос о том, какие свойства определяют морфологический тип языка (и в том числе, его агг- лютинативный характер), во многом остается открытым

 

Ещё одной характерной чертой агглютинативных языков можно на- звать транскатегориальность. Транскатегориальность — это способность некоторой языковой единицы (обычно — морфемы или клитики) сочетать- ся с разными классами слов (частями речи). Как отмечает В. А. Плунгян (ср. также более подробное обсуждение этой проблемы в специальной статье того же автора [35]), «в лингвистической типологии принято связывать до- лю транскатегориальных морфем со степенью агглютинативности или аналитичности языка» [12, с. 101].

 

Башкирский язык принадлежит к кыпчакской ветке тюркской груп- пы языков. Принятый в 1940 году алфавит башкирского языка создан на основе кириллицы с некоторыми дополнительными символами (см. [4, с. 12]). Языки тюркской группы имеют ярко выраженные морфологиче- ские особенности, в частности, их принято считать языками агглютина- тивного типа. Словоизменение (как и словообразование, насколько их во- обще стоит различать в агглютинативном языке, см., например, [4, с. 89]: «между словообразованием и формообразованием <…> нет четких гра- ниц») осуществляется при помощи суффиксов. Префиксов в башкирском языке не существует (Н. К. Дмитриев [5, с. 44] на этом основании предла- гает даже заменить термин «суффикс» на термин «аффикс» для башкир- ского языка вследствие отсутствия позиционной оппозиции), а порядок суффиксов жёстко фиксирован (впрочем, на периферии языка есть и ис- ключения из привычного порядка; в разделе 3.4 мы подробно обсуждаем проблематику порядка суффиксов). Как и в других тюркских языках, ши- роко развита алломорфия, у одного аффикса может быть до 16 алломор- фов; в языке наблюдается сингармонизм по ряду и по огубленности (тем- бровый и лабиальный в терминологии [15, с. 445], подробнее о сингармо- низме в тюркских языках см. [14]). С точки зрения нашего исследования важно отметить, что это означает, что, например, алломорф некоторого аффикса, содержащий гласный переднего ряда, практически никогда не может соседствовать в рамках одной словоформы с алломорфом другого аффикса, содержащим гласный непереднего ряда

Алломо́рф (алломорфа) — лингвистический термин, обозначающий вариант морфемы, которая может иметь разные варианты произношения, не изменяя при этом своего значения

 

Нашими данными послужил корпус, составленный из текстов ста- тей газеты «Йәшлек» (‘молодость’) за 2007—2014 гг. Суммарный объём корпуса — 5,8 млн словоупотреблений. Тексты газеты были размечены при помощи морфологического анализатора bashmorph (далее — парсе- ра; разработчик — Б. В. Орехов, см. подробнее [11]). Каждому слову при- писывалась морфологическая аннотация, но при этом грамматическая неоднозначность не снималась, в анализаторе отсутствует соответст- вующая функциональность

 

сначала приводится словоформа, затем — лемма, потом следует аффиксный состав, далее — перевод леммы на русский язык, после чего читатель находит глоссы для каждой морфемы исходной словоформы; в случае, если теоретически возможно несколько разборов, то они разделены знаком вертикальной черты. Символы оформления вывода программы в основном следуют формату, преду- смотренному в морфологическом анализаторе для русского языка «Mystem» [38]. Пример (1) — это пример данных на выходе работы программы: йыл.{йыл+Ø=«год»=S=NOM, SG|йы+л=«собирать»=V=PASS}

 

Хотя в целом сети использовались в теоретической лингвистике и ранее, морфология оказалась почти не затронута таким методом описания. Меж тем, именно в случае агглютинативной морфологии он дает существенные преимущества, позволяя установить закономерности в сочетании аффиксов, выявить типичное и нетипичное поведение морфем и морфов, предложить лингвистически оправданное описание редких, но любопытных с точки зрения теории языка случаев контактного сочетания одинаковых морфем (но разных морфов). Ключевые слова: теория графов, башкирский язык, морфология.

По замечанию из работы [17, с. 4] «<…> термины граф и сеть часто используются как эквивалент- ные. Один из способов различить их — использовать слово граф при обо- значении формальной математической структуры, а слово сеть — при обозначении конкретного примера» (здесь и в примере ниже курсив наш). В дальнейшем мы будем в основном пользоваться термином «сеть», условившись, что это понятие взаимозаменимо, в соответствии с цитатой выше, с понятием «граф». Таким образом, сеть состоит из двух множеств — множества рёбер и множества вершин; вершины могут свя- зываться при помощи рёбер. В англоязычной терминологии сеть назы- вается complex, когда речь идет о большой изменяющейся во времени сети, проявляющей нетривиальные топологические свойства, ср. «complex networks, т. е. сети, структура которых нерегулярна, сложна и динамически меняется во времени…» [19]. В русскоязычной терминоло- гии нет устоявшегося перевода термина complex networks; можно встре- тить такие переводы, как «сложные сети» [6, с. 245] или «комплексные сети» [2]. Некоторые исследователи (см. [8, с. 278]) при переводе и пере- сказе англоязычных статей, в которых речь идет о complex networks, го- ворят о них просто как о работах по теории сетей, никак не уточняя, та- ким образом, собственно характер сетей. Мы, разделяя эту точку зрения, будем пользоваться термином «сети»

В настоящее время особую популярность приобретают методы, свя- занные с автоматической обработкой текстов, написанных на естествен- ном языке. Стоит отметить, что именно сейчас для таких методов появ- ляется материал: в оцифрованном виде появляется большое количество текстов на исследуемых (в т. ч. малых) языках, это позволяет применять к ним квантитативные методы. Интернет становится для языка самодоку- ментирующим ресурсом [9, с. 197]: люди пишут тексты на естественном языке, и эти тексты мгновенно становятся доступны исследователям. Вышесказанное в большой степени касается и метода сетей как метода анализа лингвистических данных, (см. [34], [3], а также обзор [42]). Этим и обусловлена актуальность настоящей работы.Сети неоднократно использовались в лингвистических исследовани- ях. Так, проект Принстонского университета Wordnet, который является огромной структурированной базой лексических единиц английского языка, представляет собой именно сеть, (см. [26]). Сетью же является [37] проект Framenet, посвящённый исчислению и описанию фреймов (в тер- минологии, введённой в [27]). Использование метода сетей позволяет этим проектам показать иерархическую организацию семантики. Оба эти про- екта не обращаются к морфологическому уровню языка, в то время как в рамках настоящей работы рассматривается в основном именно он, поэто- му далее мы хотели бы подробно рассмотреть работы по морфологии, исследовательским методом которых являлся метод сетей. Прежде всего заметим, что в достаточно подробном обзоре [42], библиография которого насчитывает 62 пункта, нет ни одной ссылки на работу, которая бы ис- пользовала метод сетей в морфологии; по всей видимости, это свидетель- ствует о том, что к настоящему моменту теоретическая морфология и ме- тодика сетей далеки друг от друга.Первой известной нам серией работ по морфологии с использованием сетей (этот проект даже называется по-английски соответствующим обра- зом: network morphology) был ряд исследований, проведённых в универси- тете Саррея в 90-х годах прошлого века, (см., [22], а также [20], [23], [24]), полный список можно найти в сети Интернет по адресу: http://www.surrey.ac.uk/englishandlanguages/research/smg/webresources/ network_morphology_bibliography. htm. В 2012 году вышла монография [21], которая подытоживает и обобщает результаты, полученные в рамках этого подхода. Этот подход, первоначально разработанный Гревиллом Корбет- том для описания системы русского словоизменения, состоит в следующем: вершинами сети являются «базовые элементы» (фактически — или леммы, или грамматические классы практически в понимании [7]), способные хра-нить факты («вершина — это именованная локация, в которой могут хра- ниться один или более фактов» [22, с. 117]). Фактом, в свою очередь, авторы называют некоторую пару «атрибут — значение». Сеть имеет древовидную структуру, поэтому если в данном узле не указано значение некоторого ат- рибута, то это значение берётся из расположенного выше узла, связанного с данным; цепочка наследования свойств, отмечают авторы, может быть дос- таточно длинной. Таким образом, возможно, с точки зрения авторов, опи- сать разные морфологические системы (помимо словоизменения в русском языке, они описали, например, систему именных классов языка арапеш); для этих целей даже был разработан язык программирования DATR (см. [25]).

Таким образом, для образования форм этой лексемы нам следует взять слова закон и присоединить к нему окончания по пра- вилам, перечисленным в «фактах», присущих первому классу. Отметим, что практически единственное преимущество метода сетей при использо- вании этого подхода — это возможность иерархической организации лек- сики и наглядной иллюстрации принципов наследования. Насколько нам известно, никакие иные характеристики сетей в работах Саррейской груп- пы не фигурируют; заметим, что, поскольку в действительности узлы яв- ляются достаточно разнородными (это и лексемы, и самые разные грамма- тические классы), едва ли можно предполагать, что подсчёт каких-либо ко- эффициентов был бы осмысленным. Кроме того, мы не уверены, что такую сеть можно назвать комплексной.

 

несколько огрубляя, в переводе на собственно лингвистиче- ский материал этот вопрос звучал бы как «верно ли, что есть такая пара аффиксов a и b, которая в некоторых словах встречается в порядке a-b, а в некоторых других — в порядке b-a?» (хотя, строго говоря, речь могла бы идти не только о парах). После того, как небольшое количество таких пар (а именно 10; например, это суффиксы — less и — ness) всё-таки на- ходится (это означает, что существуют такие звенья иерархической цепи, где иерархия может нарушаться), авторы генерируют множество слу- чайных графов с тем же количеством вершин и рёбер, что и в получен- ном ими графе (31 и 161 соответственно), и фиксируют вероятность на- личия всего лишь 10 циклов в них. Получается, что она исчезающе мала, а значит, можно говорить о жёсткости иерархии и о скорее случайном характере исключений из неё; подробный лингвистический анализ ис- ключений доказывает эту гипотезу

 

В ходе предварительной обра- ботки корпуса мы извлекли из каждого возможного разбора только це- почки аффиксов. Далее мы построили сеть, вершинами в которой явля- лись аффиксы; ребро между аффиксами появлялось в том случае, если был найден хотя бы один разбор, в котором они следуют друг за другом и между ними нет никакого другого аффикса. У каждого ребра есть вес — количество примеров совместной встречаемости двух аффиксов.

По- скольку настоящая работа носит в том числе и прикладной характер, мы сознательно обсуждаем далее вопросы отражения сетью не только собст- венно языковых реалий (хотя этим вопросам мы, безусловно, отдаём предпочтение), но и те структурные недочёты работы парсера, которые с ее помощью удалось выявить.

 

обнаружено 292 морфа. Эти 293 вершины связаны 3214 рёбрами; таким образом, средняя степень вершины — 21,94, а плотность сети (реальное количество рёбер относи- тельно максимально возможного) — 0,075. Однако при переходе к дру- гим характеристикам обнаружилось, что в сети имеются петли («Ребра вида (a, a) или {a} называются петлями» [10, с. 16]): ребро от некоторого аффикса вело к нему самому. Это означает, что парсер разобрал некото- рые словоформы таким образом, что некоторые аффиксы повторялись в словоформе, при этом непосредственно следуя друг за другом, что не- возможно в башкирском языке

 

Диаметр графа (самый длинный путь в графе) — 6; таким образом, есть большой соблазн сказать о том, что максимально возможная цепоч- ка аффиксов в башкирском языке, по-видимому, равна 6. И действи- тельно, длина самой длинной засвидетельствованной цепочки в нашем корпусе разборов оказалась равна 6, см. пример (4): Аша-ған ризыҡ-тар-быҙ-ҙа ла, айырыуса есть-PST пища-PL-POSS.1PL-LOC PTCL особенно сит-тән кил-тер-ел-гән-дәр-ен-дә нитрат-тар (4) крайний-ABL прийти-CAUS-PASS-PST-PL-POSS.3-LOC нитрат-PL һәм организм өсөн зыян-лы элемент-тар күп. CNJ организм для вред-ADJR элемент-PL много ‘В пище, которую мы едим, особенно заграничной (букв. «принесённой из-за границы»), много нитратов и вредных веществ’ Отметим, что в башкирско-русском словаре под редакцией К. З. Ахмерова помимо глагола килеү «приходить, прийти» [1, с. 257] есть и глагол килтереү «приносить, доставлять» [1, с. 259], т. е. каузатив от глаго- ла килеү можно считать лексикализованным.

ексикализа́ция — превращение отдельного элемента языка (морфемы, словоформы), сочетания слов в отдельное знаменательное слово либо устойчивую фразеологическую единицу — лексикализованное сочетание или фразеологизм..

 

В случае трактовки формы килтерелгәндәрендә как формы глагола килтереү мы получаем цепочку из 5 аффиксов. Поскольку других цепочек из 6 аффиксов мы не зафиксировали, то, как кажется, можно констатиро- вать, что цепочки длиннее, чем из 5 аффиксов, крайне редко встречаются в естественных текстах на башкирском языке

 

Примечательно, что в из- вестном нам квантитативном исследовании (проведённом, правда, на ма- териале корпуса значительно меньшего объёма) башкирского языка [13] автор пришёл к схожим выводам: «Словоизменений, содержащих более пяти аффиксов, не обнаружено» ([13, с. 14]). Хотя, например, Н. К. Дмит- риев [5, с. 44] приводит пример словоформы (5), в которой содержится шесть аффиксов. урман-дар-ыбыҙ-ҙа-ғы-лар-дан (5) лес-PL-POSS.1PL-LOC-POSS.3-PL-ABL ‘из тех, которые находятся в наших лесах’ (перевод Н. К. Дмитриева) Н. К. Дмитриев, однако, не приводит источника этой словоформы и её контекста: вполне возможно, что это не произведённый носителем текст, а сконструированная самим исследователем словоформа.

 

 

С точки зрения теории графов, можно заключить, что, возможно, диаметр графа может отражать длину максимальной цепочки аффик- сов, но для того, чтобы утверждать это наверняка, нужна бόльшая язы- ковая выборка.

 

Таким образом, на данном этапе приложения метода сетей к агглю- тинативному материалу башкирского языка удалось выяснить, что зна- чимыми для описания морфологии тюркского языка оказываются такие базовые характеристики сети, как число вершин, число рёбер, средний вес ребра и диаметр графа. В то же время средняя степень вершины и плотность графа не нашли своих лингвистически значимых эквивален- тов и их встраивание в теоретическую сторону описания морфологии требует дальнейших исследований.

_______________________

6? дас башкиришешпрахенетворкпарсингморфолоджистадизSmile

Мемы&медиавирусы

Loading...