WWW.LIBRUS.DOBROTA.BIZ
БЕСПЛАТНАЯ  ИНТЕРНЕТ  БИБЛИОТЕКА - собрание публикаций
 

«Р^]Й^1|^Еое§ийеко-Таджикского /'^^О^^вяндкдго) университета СалиховН.Н. 2018 г. « 21 ОТЗЫВ ведущей организации Межгосударственное образовательное учреждение высшего образования ...»

Р^]Й^1|^Еое§ийеко-Таджикского

/'^^О^^вяндкдго) университета

СалиховН.Н .

2018 г .

« 21

ОТЗЫВ

ведущей организации Межгосударственное образовательное учреждение

высшего образования "Российско-Таджикский (Славянский) университет"

на диссертационную работу Довудова Гулшана Мирбахоевича «Компьютер­

ный морфологический анализ таджикских словоформ», представленную на

соискание ученой степени кандидата технических наук по специальности

05.13.11 - «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей» в диссертационный совет 6В.КОА-032 при Таджикском техническом университете имени академика М.С. Осими .

1. Актуальность исследований Автоматизация обработки текстовой информации относится к числу главных проблем современной цивилизации. В своей основе она опирается на морфологический анализ слов, который используется в компьютерном пе­ реводе, проверке орфографии, анализе и синтезе речи, диалоге с компьюте­ ром, индексировании, аннотировании, реферировании, классификации, руб­ рикации документов, извлечении ключевых слов и во многом другом .

В настоящее время для большинства непривилегированных языков, но­ сителями которых являются малочисленные народы, вопрос об автоматиза­ ции МА по существу связывается с вопросом об их роли в современном научно-техническом прогрессе. Оказаться на обочине этого процесса или же вносить посыльный вклад в развитие человеческой цивилизации напрямую зависит от способности того или иного народа успешно решить проблему ав­ томатической обработки текстовой информации на родном языке, в частно­ сти создать свою собственную автоматическую систему морфологического анализа словоформ .

В этой связи диссертационная работа Г.М. Довудова является актуаль­ ным научным исследованием, которое посвящено разработке системы авто­ матического морфологического анализа таджикских словоформ. В общем случае под этим подразумевается определение по заданной словоформе её изначальной (нормальной) формы, из которой сформировано искомая слово­ форма, и набора грамматических признаков, характеризующих саму слово­ форму. Данная тема является, безусловно, актуальной и имеет не только научную, но и практическую значимость .

2. Структура и содержание работы Диссертация состоит из введения, пяти глав, заключения и списка лите­ ратуры из 156 наименований. Основная часть диссертации изложена на 120 страницах. Диссертация содержит 38 таблиц и 41 рисунок .

Введение включает обоснование актуальности работы, цели и задачи ис­ следования, объект и предмет исследования, научную новизну и практиче­ скую значимость диссертации, а также сведения о публикациях и апробации работы .

В рецензируемой диссертации первым этапом разработки автоматиче­ ской системы морфологического анализа (МА) явилось формирование кол­ лекции текстов объемом около 60 млн. словоупотреблений. Путем примене­ ния полуавтоматической итеративной процедуры, названной морфораспознавателем, из коллекции текстов извлечена обширная база морфов (префиксы, корни и постфиксы) таджикского языка. Экспертный анализ грамматических значений аффиксов вызвал необходимость их классификации на словоизме­ нительные, словообразовательные и словосочетательные, что повлекло за со­ бой потребность классификации словоформ на словоизменительные, слово­ образовательные и словосочетательные .

На втором этапе устанавливается, что анализ двух последних типов сло­ воформ удается, в конечном счете, свести к анализу словоизменительных словоформ. Это, в свою очередь, позволяет ввести позиционное кодирование произвольной словоформы .





На третьем этапе дано описание алгоритмов МА словоформ, нормаль­ ные формы которых принадлежат тем или иным частям речи .

На четвертом этапе разработан комплекс программ для компьютерной реализации автоматического МА таджикских словоформ .

Заключение содержит основные выводы, которые подтверждают успеш­ ное решение поставленных автором задач .

Приложения включают справки о внедрении и дополнительную инфор­ мацию о различных аспектах работы .

3, Научная новизна основных положений и результатов работы за­ ключается в следующем:

- путем обработки коллекции текстов объемом в 59 344 883 словоупо­ треблений, сформирована обширная база морфов таджикского языка, содер­ жащая 81 префикс, 76 539 корней и 128 760 постфиксов. Статистическими методами показано, что состав префиксов - окончательный, состав постфик­ сов в дальнейшем может несколько расшириться, а база корней далека от своего предельного значения;

- с учетом специфики таджикского языка предложена классификация типов аффиксов (словоизменительных, словообразовательных и словосочетательных) и соответствующая ей аналогичная классификация словоформ;

- разработано позиционное кодирование таджикских словоформ;

- разработано эквивалентное представление словосочетательных слово­ форм фрагментами предложения;

- разработано алгоритмическое обеспечение автоматического МА та­ джикских словоформ .

- разработан комплекс программ автоматического МА таджикских сло­ воформ .

4. Практическая значимость работы и реализация ее результатов Разработанный в диссертации компьютерный морфологический анали­ затор зарегистрирован Национальным патентно-информационным центром Министерства экономического развития и торговли Республики Таджикистан (МЭРиТ РТ) в качестве информационного ресурса под индексом ЗИТТ от 20.12.2011 года. Он предоставляет широкие возможности для решения самых разнообразных проблем автоматической обработки текстов на таджикском языке .

В частности, на основе предложенного в диссертации морфораспознавателя созданы языковые пакеты для проверки таджикской орфографии в ОрепОШсеОг§ и Мхсгозой ОШсе. Они зарегистрированы в качестве инфор­ мационных ресурсов под индексами ЗИ-03.2.222Т1 от 11.01.2012 г. и № 4201200235 от 04.10.2012 г. соответственно. Эти пакеты получили широкое применение в практической деятельности организаций и учреждений Рес­ публики Таджикистан .

С помощью программного комплекса автоматического МА сформиро­ ван грамматический словарь словоизменений основ для 243758 таджикских словоформ. В свою очередь, этот грамматический словарь использован для морофологической разметки корпуса таджикского языка размером более 100 млн. токенов .

5. Рекомендации но использованию результатов и выводов работы Считать целесообразным на основании полученных соискателем резуль­ татов диссертационного исследования:

- использовать грамматический словарь словоизменений основ для тегирование национального корпуса таджикского языка .

- морфологические признаки могут быть использованы для целей иден­ тификации автора текста .

- морфологический анализатор можно использовать для компьютерного перевода, проверка орфографии, анализа и синтеза речи и во многом другом .

6. Публикации и апробация работы По теме диссертации опубликовано 19 работ: 2 монографии (в соавтор­ стве с научным руководителем), 13 статей, и 4 свидетельства о государственной регистрации информационного ресурса. Из них 10 наименований в изда­ ниях, рекомендованных ВАК при Президенте Республики Таджикистан .

7. Оценка содержания диссертации Диссертация написана четким и ясным языком с большим количеством графического материала, поясняюш,его и иллюстрируюш,его соответствуюш,ие результаты научных положений и технических решений. По содержа­ нию работы можно сделать следующие замечания:

1) В работе эффективность разработанных алгоритмов оценено по процен­ там правильно анализированных словоформ и дано требование к ресур­ сам компьютера, но не рассмотрены временные характеристики алгорит­ ма т.е. ничего не сказано о средней скорости компьютерного морфологи­ ческого анализа таджикских словоформ? .

2) В § 1.7 на стр.46 отмечается, что компьютерный морфологический ана­ лиз однокорневых таджикских словоформ осуществляется с эффективно­ стью 92.02 %. А какова ситуация с многокорневыми словоформами? По­ чему они не упоминаются? Какую долю они составляют на множестве словоупотреблений?

3) Программный продукт реализован в виде Ве8с1:ор-версии, но сегодня ос­ новной объем информации находится в сети интернет, было бы хорошо создать \\^еЬ-версию данного программного продукта .

4) В тексте диссертации имеются некоторые синтаксические неточности в оформлении маркерных и нумерованных списков и другие незначитель­ ные неточности, например, в некоторых местах ссылка на источник дает­ ся после точки, завершающей предложения .

Заключение Отмеченные недостатки не являются принципиальными и не снижают научной и практической ценности диссертационной работы. Результаты дис­ сертационной работы отражены в периодических изданиях, рекомендован­ ных ВАК при президенте Республики Таджикистан, и доложены на научнопрактических конференциях и семинарах международного и местного уров­ ня. Автореферат диссертации правильно и полно отражает ее содержание .

Анализ диссертационной работы в целом позволяет сделать следую­ щие выводы:

1. Содержание диссертации соответствует паспорту специальности 05.13.11 - «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей» .

2. Проверка диссертации в системе «Антиплагиат.ВУЗ» показала, что итоговая оригинальность по отношению к имеющимся базам данных состав­ ляет 89,39% .

3. Представленная диссертационная работа Довудова Г.М. является само­ стоятельной, законченной научной квалификационной работой, обладающей




Похожие работы:

«УДК. 674.817 И.В. Тимофеев, Д.В. Иванов, А.А. Леонович, С.М. Крутов ИСПОЛЬЗОВАНИЕ МОДИФИЦИРОВАННОГО ЛИГНИНА ДЛЯ СНИЖЕНИЯ ТОКСИЧНОСТИ ДРЕВЕСНЫХ ПЛИТ Введение. В последнее годы в России наблюдается устойчивый рост производ...»

«190 СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ 1. Андреев В. А. Релейная защита и автоматика систем электроснабжения / В. А. Андреев. – М. : Высш. шк., 2006. – 639 с. 2. Інструкція про розслідування та облік технологічних порушень на об’єктах електроенергетики і в об’єднаній енергетичній системі Украї...»

«INT-GSM Интерфейс связи GPRS Версия микропрограммы 1.00 int-gsm_ru 07/18 SATEL sp. z o.o. • ul. Budowlanych 66 • 80-298 Gdask • POLAND тел. +48 58 320 94 00 www.satel.eu ПРЕДУПРЕЖДЕНИЯ Установка модуля должна производиться квалифицированными специалистами. Во избежание риска совершения возможных...»

«Рыжков Денис Леонидович ПРЕВРАЩЕНИЕ СТОИМОСТИ В СИСТЕМЕ ОБЩЕСТВЕННОГО ОБМЕНА КАК ПРОЯВЛЕНИЕ СОЦИАЛЬНОГО НЕРАВЕНСТВА Статья посвящена описанию превращения системы общественного обмена, в результате которого обращение фиктивных стоимостей завладевает системой действительного обмена. Анализируется механизм этого...»

«И ЗВ ЕС ТИ Я ТОМСКОГО ОРДЕНА ТРУДОВОГО КРАСНОГО ЗНАМЕНИ ПОЛИТЕХНИЧЕСКОГО ИНСТИТУТА имени С. М. КИРОВА Т о м 127, в. 1 1964 ПЕТРОГРАФИЧЕСКАЯ ХАРАКТЕРИСТИКА БОРОДИНСКОГО ПЛАСТА И РШ А -БО РО Д И Н С К О ГО М Е С Т О РО Ж Д Е Н И Я КА...»

«164 СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ 1. Аналіз тенденцій зовнішньої торгівлі товарами України за регіонами і товарними групами [Електронний ресурс] : презентація / Департамент монетарної політики та економічного аналізу. – – 2017. URL :– (дата звернення: https://bank.gov.ua/doccatalog/document?id=50356637. 09.09.2017).2. Гн...»

«Портфолио преподавателя кафедры Математики и вычислительной техники Доцент кафедры математики и вычислительной техники Дубенко Юрий Владимирович доцент, кандидат технических наук email scorpioncool1@yandex.ru Адрес 350010 Краснодар, Зиповская 5, Главный корпус SPIN-ко...»







 
2019 www.librus.dobrota.biz - «Бесплатная электронная библиотека - собрание публикаций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.