«К СОЗДАНИЮ КОМПЬЮТЕРНОЙ СИСТЕМЫ СЕМАНТИЧЕСКОЙ КЛАССИФИКАЦИИ ЛЕКСИКИ Исходная идея описываемого проекта – проста и скромна: избавить лингвистаисследователя от необходимости ...»
А.А. Кретов, А.В. Рафаева
Воронеж, Москва
К СОЗДАНИЮ КОМПЬЮТЕРНОЙ СИСТЕМЫ
СЕМАНТИЧЕСКОЙ КЛАССИФИКАЦИИ ЛЕКСИКИ
Исходная идея описываемого проекта – проста и скромна: избавить лингвистаисследователя от необходимости повторять единожды выполненную работу по
семантизации лексико-семантических единиц (ЛСЕ), представленных в произвольно
выбранном тексте .
Потребность такого рода семантизации возникает постоянно и вызвана рядом причин: 1) принципиальной открытостью словаря, 2) необходимостью описывать синхронное состояние лексико-семантической системы, 3) необходимостью определять тематическую принадлежность текстов через привязывание ключевых слов к определённым участкам лексико-семантического пространства, 4) необходимостью проекции лексической семантики текста на систему семантических координат .
Осуществление полной семантизации ЛСЕ текста или корпуса текстов открывает целый ряд новых возможностей: 1) создание частотно-семантических словарей, метко названную Алексеевым «оценкой толкового словаря по тексту», 2) создание исторической лексикологии русского (а в перспективе – любого другого языка, имеющего письменную традицию), 3) типологические исследования лексической семантики. Этот ряд может быть продолжен .
Предлагаемое решение задачи базируется на следующих постулатах:
1) лексическая семантика является автономной сущностью, не зависящей от грамматики данного языка (образно говоря, так называемые «части речи» являются проекциями на разные грамматические плоскости одной и той же лексико-семантической фигуры),
2) лексико-семантическое пространство едино для всех языков мира, обладая гомологической (в математическом смысле) инвариантностью относительно своих конкретных реализаций в отдельных языках мира,
3) в индоевропейских языках лексическая семантика концентрируется в именах (существительном и прилагательном) и глаголе,
4) лексическая семантика глагола и прилагательного в конечном итоге сводится к семантике существительного и может быть описана через неё (например, белый – ‘цвета снега, мела или молока’),
5) собственно глагольная семантика при ближайшем рассмотрении оказывается грамматической: процессуальной (действие, отношение, состояние, погружённые во время), инхоативной-каузативной (ослепнуть – ‘начать не иметь зрения’ и ослепить – ‘каузировать начать не иметь зрения’), фазовой (расцвести ‘начать быть – о цветке’, увянуть ‘кончить быть – о цветке), утвердительной-отрицательной (ослепить – каузировать кого-л. начать не иметь зрения, воочесить – ‘каузировать кого-л. начать иметь зрение’), акционсартной (петь – попеть, запеть, пропеть, допеть, распеться, отпеть, отпеться и т.д.),
6) семантические функции И.А.Мельчука-А.К.Жолковского-Ю.Д.Апресяна являются грамматической надстройкой над лексической семантикой,
7) как идеальное даётся во всегда так или иначе материализованном виде, так и лексическая семантика не может быть выражена в языке вне его частеречного оформления; следовательно, при анализе лексической семантики следует ориентироваться на наименее маркированную часть речи – имя существительное и те значения, которые выражаются существительными. Наименьшая маркированность существительного как части речи обоснована В.Г.Руделёвым, а также может быть выведена из сближения маркированности с рецессивностью, а немаркированности с доминантностью, предложенного Вяч. Вс. Ивановым и Т.В. Гамкрелидзе (ИЕ язык и ИЕ-цы-1986). Наиболее многочисленная часть речи в известных нам словарях – имя существительное. А наиболее многочисленный член оппозиции как раз и является доминантным и немаркированным,
8) специфика лексической семантики может быть выявлена и описана только в результате последовательного снятия грамматических надстроек и напластований,
9) всё регулярное должно выноситься из словаря в грамматику (Л.В.Щерба, В.В.Морковкин) .
10) графически лексико-семантическое пространство может быть представлено в виде множества деревьев (леса). Исходными узлами этих деревьев являются базовые понятия человеческого языка .
Проектами, предшествовавшими данному, являются:
Идеографический словарь П.С.Палласа и созданный А.С.Шишковым на его
коллективом под руководством Э.В.Кузнецовой, а после её смерти – под руководством Л.Г.Бабенко (Толковый словарь русских глаголов .
Идеографическое описание. Синонимы. Антонимы. М, 1999 – под ред Л.Г.Бабенко). Этот словарь создан вручную, но посредством хорошо алгоритмизированного метода словарной идентификации, разработанного и предложенного Э.В.Кузнецовой .
Опыт идеографических словарей показывает, что языковую реальность они отражают на нижних уровнях обобщения (синонимические ряды, гипо-гиперонимические отношения), а на высших уровнях обобщения количество и качество выделяемых таксонов зависит всецело от произвола (вкусов и взглядов) исследователя (М.И.Задорожный, Ю.Н.Караулов). Особенно хотелось бы обратить внимание на значительную частеречную независимость «Тезауруса» П.Роже, продиктованную, конечно же, существенной деморфологизацией английского языка .
«Русский семантический словарь» представляется изначально непригодной попыткой, поскольку он – в соответствии со взглядами Н.Ю.Шведовой – ориентирован на грамматическую (частеречную) семантику .
Словарь Торндайка-Лорджа свидетельствует о принципиальной разрешимости задачи тотальной семантизации больших корпусов текстов, правда, опыт, накопленный при создании этого словаря, оказывается практически недоступен, равно, как и проверка обоснованности решений, принятых его составителями. В цифры, полученные исследователями, остаётся только верить или исследовать их достоверность опосредованным образом, исходя из тех или иных соображений общего плана .
В этом отношении намного выигрывает «Русский семантический словарь: Опыт автоматического построения тезауруса: От понятия к слову.» (Ю.Н.Караулов и др., М., 1982 ). Опыт этого словаря очень полезен. Правда, польза эта, в немалой степени, негативного плана. Во-первых, список словарных статей и слова-аттракторы задавались, а не получались в ходе исследования. Это главное, что не устраивает нас в данном словаре .
А, во-вторых, это опыт, а также опыт екатеринбургского коллектива, созданного Э.В.Кузнецовой, показал, что словарные дефиниции не могут быть идеальным, единственным и окончательным средством семантизации лексики, независимо от качества словаря: будь то словарь С.И.Ожегова или МАС (Словарь русского языка в 4-х тт. под ред. А.П.Евгеньевой, М., 1957-1961) .
Опыт уральских лингвистов, возглавляемых Э.В.Кузнецовой и Л.Г.Бабенко, позволил увидеть, что ориентация на толкующие глаголы при семантизации глагольной лексики порой приводит к созданию чисто грамматических (фазовых или каузативных) группировок глаголов, весьма разнородных по своей лексической семантике .
Поскольку слово из любого текста на любом языке может быть семантизировано по-русски, мы в перспективе получаем инструмент семантического анализа текстов на любых языках и соответственно – анализа лексико-семантических систем любого языка .
Автоматизация семантизации иноязычного текста существенно облегчается, если он входит в корпус параллельных текстов, одним из которых является русский. В таком случае исследователю останется установить соответствие между входным и русским словом и связать это слово со словарём .
Анализ накопленного опыта позволил укрупнить глагольные классы следующим образом:
БАЗОВЫЕ ЗНАЧЕНИЯ РУССКИХ ГЛАГОЛОВ
1. Бытие a. Чистое: быть b. Специализированное: жить, расти, цвести, гореть, звучать и т.д .
2. Бытие-в-качестве (состояние/признаковость):
a. (каким-бытие) спать, болеть, чистить, уменьшить, изменить, b. глаголы изменения функционального состояния (делать каким: функционирующим – не функционирующим): закрыть дверь – сделать функционирующей (привести в рабочее состояние) – открыть дверь - сделать не функционирующей (привести в нерабочее состояние) .
c. глаголы функционального преобразования объекта: (быть целым, годным, исправным) .
Беречь (каузировать продолжать быть целым, годным, исправным); портить (каузировать быть нецелым, негодным, неисправным); восстановить, исправить (каузировать перестать быть нецелым, негодным, неисправным) .
3. Бытие-в-пространстве a. Вертикально ориентированное бытие: положение в пространстве (пребывание): лежать (падать, класть), стоять, сидеть, висеть .
b. Горизонтально ориентированное бытие: (где-бытие) находиться, включая i. Глаголы бытия-в-движении (куда-бытие): идти-ходить, ехать-ездить и т.п .
c. Объёмно ориентированное бытие /в-чём-бытие – ([каузировать] начинать/переставать) быть внутри чего-л.: вобрать, впитать, испускать, выделять .
4. Бытие-во-времени (событийность): (когда-бытие) произойти, совершиться
5. Бытие-в-целом: воздействие на предмет: включая a. глаголы соединения-разъединения, содержащие в себе семантику (быть частью, входить в состав чего-л.-): бить, рвать, ломать, резать, рубить, колоть и т.д. Сюда же – b. глаголы действия или использования - опосредованного (вторым объектом) воздействия на объект (одушевленный или неодушевленный), а также c. глаголы физиологического воздействия: есть, пить, дышать .
6. Бытие-в-собственности/У-кого-бытие (обладание): иметь, обладать; дать-брать (лишать), терять .
7. Бытие-в-ином:
a. опредмеченное (объективация духовной деятельности): осуществить, исполнить, выражать, воплощать, изобразить, воспроизвести, включая i. Бытие-в-звуке: звучание. (Регулярно переходит в реализацию-воплощение и передачу информации) .
ii. Бытие-в-слове: Передача информации (устной и письменной): сообщать, извещать, говорить, писать. Близка к группам обладания, реализации-воплощения и межсубъектных отношений .
iii. Бытие-в-имени: Обозначение-именование: назвать, обозначить, отметить .
b. распредмеченное:
i. Бытие-в-восприятии (чувственное восприятие): Смотреть, видеть, слушать, слышать и т.д .
ii. Бытие-в-мысли (мыслительная деятельность): думать, мыслить, представить, вообразить, понять, осмыслить и т.д .
8. Воздействие на личность:
a. физическое: пособить, позволить, обеспечить, снабдить, помочь, содействовать;
мешать, препятствовать b. психическое: межсубъектное взаимодействие: договориться, условиться, убедить, уверить, признать, победить, защитить, поручить, отказаться. (Моделируется по образцу физического воздействия на объект, т.е., как отношения людей к предметам) .
9. Отношение-в-себе (социально ориентированное бытие): относиться к кому-чему-л .
10. Отношение-во-вне (социально ориентированные действия): поведение: вести себя, поступать, проявлять себя .
Предельным обобщением глагольной семантики представляется следующая таблица с предполагаемыми ею 12-ью классами. .
ДЕЙСТВИЯ СОСТОЯНИЯ ОТНОШЕНИЯ
ФИЗИЧЕСКИЕ
БИОЛОГИЧЕСКИЕ
ПСИХИЧЕСКИЕ
СОЦИАЛЬНЫЕ
Над всем этим надстраивается НЕГАЦИЯ (отрицание) ФАЗОВОСТЬ: начало-конец, продолжение-возобновление ИНХОАТИВНОСТЬ - КАУЗАТИВНОСТЬ (делаться-делать каким-л.)ЗАЛОГОВОСТЬ: АКТИВНОСТЬ-ПАССИВНОСТЬ-ВЗАИМНОСТЬ
МОДАЛЬНОСТЬ
Принципиально новой является установка на использование метода словарной идентификации Э.В. Кузнецовой с ориентацией на слова наиболее конкретной (собственно лексической семантики), используемые в дефинициях. В сочетании «глагол+существительное» таким словом, как правило, является существительное. В сочетаниях «прилагательное+существительное» конкретнее, как правило, оказывается семантика прилагательного .Вторым принципиальным выводом, сделанным из опыта Ю.Н.Караулова и его соавторов, является вывод о необходимости создания (с опорой на имеющиеся) особого типа дефиниций и особого метаязыка (на базе русского), которые будут ориентированы на компьютерный анализ и приспособлены для него, а именно – в нём будет снята неоднозначность (асимметрия) единиц – как в виде омонимии-полисемии, так и в виде синонимии. Это должен быть метаязык, ориентированный, в первую очередь, на компьютер и лишь после этого – на человека. Хорошая дефиниция – та, что автоматически приводит к верной семантизации входного слова .
В качестве исходного фонда дефиниций предполагается взять дефиниции Большого толкового словаря русского языка – (БТС) /под ред. С.А. Кузнецова (СПб, 1998) .
Начать предполагается с семантизации глаголов как с наиболее сложного случая .
Допустим, нас интересует эволюция словаря. Мы можем попытаться зафиксировать план содержания и сосредоточиться на изменениях в плане выражения .
Именно такой подход предлагал В.Г.Гак, для французского и русского языков: брались разновременные переводы одного и того же текста и анализировались различия этих переводов, на основании чего делались выводы относительно эволюции языка вообще и его лексико-семантической системы, в частности .
Такой подход, при всех его достоинствах, не устраивает нас по двум причинам. Вопервых, он даёт много посторонней информации и тем самым затрудняет выделение собственно лексико-семантических явлений. Во-вторых, фиксируя план содержания, он лишает нас возможности исследовать динамику содержательной части словаря, что существенным образом обедняет лингвистическую информацию и лишает многих возможностей, выводящих за пределы языка .
Поэтому принимается другой подход .
1) Берутся хронологические слои с интервалом 200, 100 или 50 лет;
2) для каждого среза выбирается, например, 10 текстов 10-ти различных авторов;
3) из каждого текста случайным образом извлекается 100 примеров реализации глагольных значений;
4) каждое из глагольных значений семантизируется посредством модернизированного (в сторону субстантивации) метода словарной конкретизации;
5) для каждого из текстов в результате субстантивации получаем список семантических групп (деревьев) с количественной характеристикой каждого из них;
6) поскольку каждый срез представлен 10-ью текстами, то для каждого среза каждая из семантических групп (деревьев) может быть представлена её средней относительной частотой с указанием доверительного интервала среднего квадратичного отклонения с заданной точностью и надёжностью. Аналогичные данные могут быть получены для каждого из значений, а также для каждой из лексем или для каждого из словосочетаний, если глагольное значение передаётся несколькими словоформами;
7) сопоставление данных по каждому из срезов позволит судить как о количественных, так и о качественных изменениях в лексико-семантической системе;
8) тем самым будет получена информация, необходимая для создания исторической лексикологии русского глагола .
9) Применение указанной методики к глаголу, существительному и прилагательному одновременно позволит создать историческую лексикологию русского языка как действительную историю системы, а не случайный и принципиально не сводимый воедино набор историй о «жизни слов», лексико-семантических или тематических групп лексики .
10) Вопрос о ядре и периферии лексико-семантической системы решится при этом сам собой на основании непредвзятого анализа объективных данных .
Единица словаря в тексте представлена словоформой в одном из значений. Задача исследователя двояка: 1) отождествить словоформу с леммой (словарной формой) и 2) соотнести эту лемму с одним из значений, которое в словаре представлено дефиницией .
После этого процедура повторяется до тех пор, пока не будет достигнут корневой (исходный узел) дерева дефиниций .
Из этого следует, что количество входов в семантическое пространство равно количеству узлов. Значению слова (семеме) соответствует вся цепочка дефиниций от данного узла до корневого .
Таким образом, предпринимается попытка объединить все дефиниции словаря в ограниченное множество деревьев (лес), содержательно соответствующих семантическим полям .
Задача семантизации в самом общем виде сводится к установлению отношения между некоей единицей текста (словоформой) и некоей единицей словаря – ЛСВ (лексико-семантическим вариантом), состоящим из лексемы (леммы) и семемы (дефиниции). В каждой дефиниции есть словоформа метаязыка (матасловоформа), в свою очередь, являющаяся дверью (входом) в следующий ЛСВ – и так до корневого узла дерева дефиниций .
Исходя из вышесказанного, определим свойства семантического пространства, существенные для построения компьютерной системы .
1) Основной единицей анализа является цепочка дефиниций от начального до конечного (корневого) узла. Каждый узел является ЛСВ, представленным в цепочке леммой со снятой омонимией и многозначностью (т.е. тройкой вида лемма, № омонима, № значения). Пары лемма со снятой омонимией и многозначностью – дефиниция хранятся в словаре .
2) Для каждого ЛСВ существует единственная цепочка дефиниций, ведущая от данного ЛСВ к корневому узлу (иными словами, набор цепочек должен быть согласован) .
Для каждой леммы со снятой омонимией и многозначностью существует одна и только одна дефиниция .
3) Каждый ЛСВ может появиться в цепочке не более двух раз, причем второе вхождение автоматически означает конец цепочки. Это требование может быть усилено таким образом, чтобы запрет распространялся и на леммы с неснятой многозначностью .
4) Каждая цепочка от начального до корневого узла единственна; каждая цепочка может являться частью (подцепочкой) других цепочек, причем количество таких вхождение не ограничено. Каждая подцепочка любой цепочки может входить в другие цепочки неограниченное число раз .
Тогда назначение компьютерной системы и ее основные задачи могут быть сформулированы следующим образом .
1) Система предназначена для создания, редактирования, автоматической обработки и хранения как исходных данных (цепочек семем), так и результатов обрабоки (цепочек лемм и словаря), описанных выше .
2) Для обработки данных вводится система правил (фильтров), которые проверяют каждую новую цепочку, добавляемую к набору данных, и либо разрешает, либо запрещает ее добавление. В настоящее время в системе существуют три фильтра: фильтр вида цепочек (длина, разрешение/ запрет на повторяющиеся узлы), фильтр соответствия толкований уже представленным в системе (в словаре) и фильтр, проверяющий согласованность набора цепочек при добавлении каждой новой цепочки .
3) Исходные данные (цепочки семем) для заполнения базы создаются вручную .
Данные могут быть подготовлены непосредственно в системе или экспортированы из программы MS Excel .
4) Как первоначальный набор данных, так и полученные в результате пространство цепочек и словарь ориентированы на машинную обработку и не очень удобны для ручной обработки и редактирования. Для пользователя более пригодным является режим полуавтоматического создания новых цепочек, обладающий следующими свойствами:
а) Наличие формы для ввода данных в более удобном для человека виде;
б) Режим автоматического дополнения цепочек (режим предложений). Если при заполнении цепочки в этом режиме пользователь вводит лемму, содержащуюся в словаре, программа предлагает варианты заполнения цепочки для каждого из значений данной леммы. Пользователь может принять один из предложенных вариантов или предложить новое значение для анализируемой леммы .
5) Необходимым представляется также разработка средств для анализа итоговых данных. К таковым, в частности, можно отнести различные режимы просмотра итоговых цепочек, получение различных выборок и статистической информации. Пока эти возможности не реализованы, должна сохраняться совместимость как исходных, так и полученных в результате обрабоки данных с программой MS Excel .
В настоящее время программа имеет два режима работы: редактирование файла (обозначение в строке состояния – ДАННЫЕ) и показ цепочек и словаря без возможности редактирования (обозначение в строке состояния – ЦЕПОЧКИ). При запуске программа работает в режиме показа цепочек .
Рисунок 1. Режим показа цепочек и словаря В этом режиме можно просматривать данные (цепочки и словарь) и перемещаться по набору данных .
Цепочки и словарь вместе составляют базу данных и должны быть согласованы; поэтому редактирование их запрещено .
Окно программы разделено на две части: в верхней части находятся цепочки, в нижней – словарь. Области окна, отведенные для показа каждой из двух частей, равно как и ширину колонок в верхней части (цепочки) можно менять во время выполнения программы – просто тянуть мышкой .
Каждая цепочка содержит служебные данные (уникальный номер цепочки, век/язык примера, текстовый идентификатор примера) и список всех лемм, входящих в цепочку, без толкований. Толкования хранятся в словаре; просмотреть их можно в нижней части окна программы. При выделении курсором какой-либо цепочки показываются словарные статьи для всех лемм, входящих в данную цепочку (в порядке появления) .
Цепочки выравниваются по правому краю .
Словарные данные представлены в следующем виде:
Обозначение Содержимое колонки № омонима Номер омонима – число, которое стоит перед леммой в исходном файле. По умолчанию 1 Лемма лемма № значения Номер значения – последовательность символов, начинающаяся с цифры, которая стоит после леммы в исходном файле. По умолчанию Толкование Толкование леммы. Толкование хранится только в одном месте – в словаре .
НАЧ Номер цепочки, в которой данная лемма является начальной (если есть) .
СРЕД Номера цепочек (через запятую), в которых данная лемма находится в средней позиции .
ФИН Номера цепочек (через запятую), в которых данная лемма находится в финальной позиции .
Таким образом, при просмотре словаря можно одновременно просмотреть статистику для каждой из лемм .
В режиме редактирования можно создать или открыть файл исходных данных, редактировать данные, сохранять (под тем же или другим именем) и т.п .
Рисунок 2 Режим редактирования исходных данных В процессе работы в любой момент можно переключиться между этими двумя режимами .
В программе реализованы функции поиска и замены данных (любой последовательности символов, введенной пользователем). В режиме просмотра, естественно, доступна только операция замены. По умолчанию предлагается производить поиск или замену по всему множеству данных. Если в таблице выделено более одной ячейки, то по умолчанию предлагается искать в выделенной области (см. Рисунок 5). Эти параметры можно задать и вручную .
Рисунок 3 Диалог поиска и замены (режим поиска) .
Обработка подготовленных пользователем исходных данных может быть вызвана при работе в любом из режимов. При вызове этой функции обрабатывается последний вариант данных, загруженных в окно редактирования (Рисунок 2), даже если в настоящий момент они не видны (программа находится в режиме просмотра цепочек) или последний вариант после изменения не был сохранен.
Введенные цепочки проходят три фильтра:
фильтр вида цепочек, фильтр соответствия толкований и фильтр соответствия цепочки другим цепочкам (если есть) .
Предполагается, что в программу вводятся данные следующего вида:
Стол- Обозна- Тип данных Наличие бец чение A Век/языкПользовательское обозначение века и языка Обязательно примера. Программой не используется B ID Пользовательский идентификатор примера. Обязательно примера Программой не используется, но для удобства работы желательно, чтобы он был уникальным C Начальный узел в цепочке. Содержит слово Обязательно (последовательность букв) или слово с заданными номерами омонима и значения. Если номера омонима и значения не заданы, им присваивается значение 1 .
D и Все последующие узлы в цепочке. Содержит Необязадалее строки вида: тельно № омонималемма№ значения:дефиниция (без пробелов и угловых скобок), например, 1приехать1 .
После каждого запуска функции обработки создается резервная копия базы данных, а после завершения обработки база данных обновляется. Если один из файлов базы данных не может быть обновлён, обработка данных не происходит .
Повторная обработка одного и того же набора исходных данных или файла ничего не меняет в базе данных: повторяющиеся цепочки игнорируются .
Обработка данных может производиться в двух режимах: ручном и автоматическом. По умолчанию принята автоматическая обработка .
При автоматической обработке все цепочки, не прошедшие фильтрацию, записываются в файл ошибок с тем же именем, что и последний загруженный файл, и расширением *.err (при обработке файла ошибок последний сохраняется с расширением *.~er). Файл ошибок имеет тот же формат, что и исходный, точно так же может быть загружен, отредактирован и обработан программой .
При ручной обработке обнаружение каждой «ошибочной» цепочки приостанавливает обработку данных.
Появляется диалоговое окно с сообщением о виде ошибки (не полностью определенная цепочка, цепочка недопустимого вида или конфликт цепочки с уже существующими – Рисунок 4), после чего пользователю предлагается выбрать одно из следующих действий: редактировать, пропустить или отменить обработку данных:
Рисунок 4 Сообщение об ошибке обработки данных
• При выборе «Редактировать» программа переходит в режим редактирования. При этом при возобновлении обработки данные будут обрабатываться, начиная с цепочки, которая вызвала появление ошибки .
• Выбор «Пропустить» аналогичен требованию обработать ошибочную цепочку автоматически, т.е. занести ее в файл ошибок .
• «Отмена» отменяет обработку данных и переводит программу в режим редактирования. При следующем запуске функции обработки, данные будут обрабатываться с самого начала .
Как в ручном, так и в автоматическом режиме обработки каждая цепочка, успешно прошедшая все фильтры, сохраняется в резервном файле данных .