WWW.LIBRUS.DOBROTA.BIZ
БЕСПЛАТНАЯ  ИНТЕРНЕТ  БИБЛИОТЕКА - собрание публикаций
 


«СОДЕРЖАНИЕ ВВЕДЕНИЕ ГЛАВА 1. Анализ методов поиска речевой информации 1.1 Введение 1.2 Методы поиска речевой информации 1.2.1 Поиск речевой информации без распознавания ...»

ВВЕДЕНИЕ

СОДЕРЖАНИЕ

ВВЕДЕНИЕ

ГЛАВА 1. Анализ методов поиска речевой информации

1.1 Введение

1.2 Методы поиска речевой информации

1.2.1 Поиск речевой информации без распознавания речи

1.2.2 Поиск речевой информации с распознаванием речи

1.3 Модели поиска речевой информации

1.3.1 Булева модель

1.3.2 Векторная модель

1.3.3 Вероятностная модель

1.3.4 Языковая модель

1.3.5 Классификация моделей поиска речевой информации

1.3.6 Общая схема поиска речевых документов

1.4 Сравнение слов

1.4.1 Текстовое сравнение слов

1.4.2 Фонетическое сравнение слов

1.4.3 Классификация методов поиска по способу сравнения слов................ 32

1.5 Фонемное транскрибирование

1.5.1 Классификация алгоритмов фонемного транскрибирования................ 35 1.5.2 Графемно-фонемное выравнивание

1.6 Системы поиска речевой информации

1.7 Показатели эффективности поиска

Выводы

ГЛАВА 2. Разработка метода текстового поиска речевых документов .

............. 47

2.1 Постановка задачи

2.2 Распознавание спонтанной слитной речи

2.3 Анализ алгоритмов приближнного сравнения слов

2.4 Булева модель на основе приближнного сравнения слов

2.5 Векторная модель на основе приближнного сравнения слов

2.6 Вероятностная модель на основе приближенного сравнения слов........... 68 Выводы

ГЛАВА 3. Разработка метода фонемного поиска речевых документов .

............. 74

3.1 Постановка задачи

3.2 Фонемное транскрибирование

3.2.1 Понятие фонемы

3.2.2 Алгоритм фонемного транскрибирования на основе дерева альтернатив

3.2.3. Рекуррентный алгоритм фонемного транскрибирования

3.2.4 Алгоритм фонемного транскрибирования на основе скрытой марковской модели

3.3 Оценка вероятностей фонем

3.3.1 Графемно-фонемное выравнивание на основе правил

ВВЕДЕНИЕ

3.3.2 Графемно-фонемное выравнивание на основе алгоритма DTW........... 92 3.3.3 Расширение алфавита фонем и подсчет условных вероятностей......... 96

3.4 Меры сходства фонем

3.5 Расширенный алгоритм нахождения наибольшей общей подстроки..... 100

3.6 Производительность алгоритмов фонемного транскрибирования.......... 103

3.7 Анализ эффективности фонемного поиска

Выводы

ГЛАВА 4. Реализация программной модели

4.1 Архитектура программной модели

4.2 Основные компоненты системы

4.2.1 Классы моделей

4.2.2 Распознавание

4.2.3 Языковая модель

4.2.4 Клиентская сторона системы поиска

4.3 Обучающий словарь

4.4 Разработка тестовой коллекции

Выводы

ЗАКЛЮЧЕНИЕ

Список используемой литературы

Приложение 1а

Приложение 1б

Приложение 2

ВВЕДЕНИЕ ВВЕДЕНИЕ

Актуальность. Исторически, первые информационно-поисковые системы (ИПС) были ориентированы, в основном, на обработку документов текстового формата. Однако, широкое распространение профессиональных и бытовых технических устройств, таких как: видео- и фотокамеры, смартфоны и т.п., позволяющих создавать, хранить и распространять контент медиа-формата в совокупности с быстрым развитием информационно-коммуникационных систем привели, начиная с 90-х годов XX века, к взрывному росту количества документов с мультимедийным, в том числе и речевым содержанием .





Представление информации посредством речи при использовании компьютерных технологий является более удобным для восприятия по сравнению с текстом. Примерами мультимедийных документов с речевым содержанием (МДРС) являются радио- и видео-новости, аудиокниги, записи докладов конференций и, в последнее время, образовательные ресурсы в виде аудио- и видео-лекций, интерактивные учебные фильмы и мультимедийные методические разработки .

Поиск речевой информации находится на пересечении таких научных областей как обработка естественного языка (Natural Language Processing, NLP) и цифровая обработка сигналов (Digital Signal Processing, DSP). Анализу проблем в области поиска речевой информации и разработке методов их решения посвящено большое количество как отечественных (Галунов В.И., Карпов А.А., Кипяткова И.С., Потапова Р.К., Савченко В.В., Утробин В.А., Фархадов М.П., Хейдоров И.Э.) так и зарубежных (Glass J., Hauptmann A., научных Jones G.J.F., Rose R.C., Spark-Jones K., Wechsler M., Zue V.W.) исследований .

Часть исследований посвящена поиску речевой информации на низком уровне, использующем только акустические признаки речевого сигнала. К недостаткам такого подхода можно отнести высокую зависимость от состояния

ВВЕДЕНИЕ

и параметров речи диктора. Обработка речевого сигнала только по акустическим признакам не позволяет учесть лингвистическую информацию .

Большая часть исследований связана с разработкой методов поиска речевой информации на основе автоматического распознавания речи (АРР). В процессе АРР речевой сигнал обрабатывается на акустическом, фонемном и языковом уровнях. Использование лингвистической информации снижает влияние вариабельности параметров речи дикторов, таких как интонация, темп, на качество распознавания речи, а значит повышает эффективность поиска речевой информации при условии произношения речи различными дикторами .

Основным недостатком использования АРР является наличие ошибок распознавания, которые искажают полученное содержание речевой информации. В качестве причин появления ошибок распознавания выступают различные факторы, например, такие как зашумлнность сигнала, наличие акцента у диктора. Также традиционно распознавание происходит по ограниченному словарю слов. Поэтому отдельно стоит выделить ошибки .

связанные с распознаванием несловарных слов - Out-Of-Vocabulary (OOV) проблема. Способы решения OOV проблемы связаны с изменением единиц распознавания речи от слов на подслова (CVC-/VCV-признаки, морфемы, Nграммы) или фонемы, что приводит к усложнению моделей, используемых при распознавании, значительному увеличению времени распознавания, а также снижению точности распознавания слов входящих в словарь распознавания .

Поэтому актуальной является научно-практическая задача разработки и исследования моделей и методов информационного поиска речевых документов по содержанию, позволяющих снизить влияние ошибок распознавания речи, с целью повышения эффективности поиска .

Объектом исследования являются тексты, полученные в результате автоматического распознавания содержания речевых документов .

ВВЕДЕНИЕ

Предметом исследования являются модели и алгоритмы поиска речевых документов по содержанию .

Целью работы является повышение эффективности поиска речевых документов путм разработки модели информационного поиска на основе фонемного представления содержимого речевых документов и запросов пользователя .

Для достижения указанной цели поставлены и решены следующие задачи:

анализ и классификация моделей информационного поиска речевых документов;

разработка векторной модели информационного поиска речевых документов, в том числе:

o разработка функции релевантности основанной на нечетком сравнении слов при текстовом или фонемном представлении слов, o разработка механизма ранжирования речевых документов по релевантности, оценивание которой выполняется по их текстовому и фонемному представлениям;

разработка метода фонемного поиска речевых документов, в том числе:

o разработка алгоритмов фонемного транскрибирования, использующих вероятностные характеристики букв и фонем, полученные на основе обучающего словаря, o разработка меры близости фонем, используемой при сравнении фонемных транскрипций слов, o разработка алгоритма графемно-фонемного выравнивания;

составление тестовой коллекции, содержащей речевые документы на русском языке;

ВВЕДЕНИЕ

разработка программной модели системы информационного поиска речевых документов на основе разработанных алгоритмов;

экспериментальные исследования влияния разработанных моделей и алгоритмов фонемного транскрибирования, графемно-фонемного выравнивания на эффективность информационного поиска речевых документов по запросу .

Методы исследования. Для решения поставленных в работе задач используются методы алгебры, математической статистики, теории вероятностей, теории информации, теории графов и динамического программирования .

Научная новизна диссертационной работы:

1. Предложен метод информационного поиска речевых документов по содержанию, отличающийся алгоритмом сравнения слов по фонемным транскрипциям и использованием вероятностной меры сходства фонем .

2. Предложена вероятностная мера сходства фонем, используемая при сравнении фонемных транскрипций слов и отличающаяся: описанием фонем посредством условных распределений графем, ассоциированных со сравниваемыми фонемами (тогда как известные подходы основаны на описании фонем в виде векторов акустических признаков); способом количественной оценки указанной меры сходства на основе расстояния Кульбака-Лейблера .

3. Разработана модель поиска речевых документов, использующая функцию релевантности на основе приближенного сравнения слов при их текстовом и/или фонемном представлении, в отличие от существующих моделей, основанных на точном сравнении слов. Модель позволяет частично учитывать ошибки распознавания слов в речевых документах, что повышает эффективность поиска при низком качестве распознавания речи .

ВВЕДЕНИЕ

4. Разработан рекуррентный алгоритм фонемного транскрибирования текстовых последовательностей на основе математического аппарата конечных цепей Маркова .

Соответствие диссертации паспорту специальности. Работа соответствует паспорту специальности 05.13.17 – «Теоретические основы информатики» по техническим наукам в пунктах: п.2 – «Исследование информационных структур, разработка и анализ моделей информационных процессов и структур» и п.5 – «Разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечениях, разработка и исследование методов и алгоритмов анализа текста, устной речи и изображений» .

Обоснованность и достоверность результатов диссертационной работы подтверждается полученными в результате эксперимента значениями эффективности поиска по коллекции речевых документов, составленной из реальных данных, и обеспечиваются корректным использованием математического аппарата .

Практическая значимость работы.

Полученные в диссертационной работе теоретические и практические результаты показывают:

- повышение средней точности поиска при использовании приближнного сравнения слов по фонемным транскрипциям на основе 2-связной цепи Маркова относительно приближенного поиска, реализованного в сторонней библиотеке Lucene, в среднем на 4% и системы поиска ключевых слов речевых документов VoiceDigger на 0,5%;

- повышение средней точности поиска речевых документов от 1% до 15% при использовании разработанного алгоритма фонемного транскрибирования на основе многосвязной цепи Маркова относительно алгоритма фонемного транскрибирования на основе скрытых марковских моделей при искажении и замене слов в результате распознавания;

ВВЕДЕНИЕ

- целесообразность использования приближенного сравнения слов на основе фонемных транскрипций для поиска речевых документов по содержанию при низком качестве распознавания речи;

- эффективность применения математического аппарата многосвязных дискретных цепей Маркова для построения фонемных транскрипций при информационном поиске речевых документов по содержанию .

Реализация и внедрение результатов работы. Теоретические и практические результаты, полученные при выполнении диссертационной работы, использованы в НИР по темам «Разработка и исследование интеллектуальной системы информационного поиска и анализа тональности текстовых и речевых документов» (проект РФФИ № 16-07-00342а), «Разработка и исследование словарей оценочной лексики для анализа тональности текстов» (государственное задание Минобрнауки России, проект № 34 .

2092.2017/4.6); внедрены в АО «НИИ СВТ» (г. Киров) в виде технических предложений при доработке автоматизированного комплекса информационного анализа материалов на базе перспективных технологий обработки неструктурированной информации. Разработанная система поиска речевых документов зарегистрирована в Реестре программ для ЭВМ, свидетельство № 2015617364 от 08.07.2015 г. Разработанный программный модуль фонемного транскрибирования на основе нелинейного рекуррентного алгоритма зарегистрирован в Реестре программ для ЭВМ, свидетельство № 2018660458 от 23.08.2018 г .

Апробация работы. Основные результаты докладывались и обсуждались на следующих конференциях: международной конференции «15th IEEE EastWest Design & Test Symposium» (Сербия, Нови-Сад, 2017); международной конференции «9th IEEE International Conference on Application of Information and (Ростов-на-Дону, 2015); международной Communication Technologies»

конференции «Цифровая обработка сигналов и ее применение» (Москва, 2013);

ВВЕДЕНИЕ

всероссийской научно-практической конференции «Общество, наука, инновации» (Киров, 2013-2017) .

Основные положения, выносимые на защиту:

1. Модель информационного поиска на основе текстового и фонемного представления содержания речевых документов позволяет повысить эффективность поиска по коллекции документов при низком качестве распознавания речи .

2. Алгоритмы приближенного сравнения слов, отличающиеся от традиционных использованием фонемных транскрипций, обеспечивают снижение влияния ошибок распознавания речи на эффективность поиска речевых документов .

3. Рекуррентный алгоритм фонемного транскрибирования на основе оценки апостериорной вероятности состояний многосвязной цепи Маркова .

4. Результаты экспериментальных исследований .

Публикация результатов. По результатам исследования опубликовано 19 работ, в том числе: 4 статьи в рецензируемых научных изданиях, рекомендуемых ВАК, 3 статьи в издательствах, индексируемых в базе Web of Science и Scopus. Получено 2 свидетельства официальной регистрации программы для ЭВМ .

Личный вклад автора. Автору принадлежит разработка методов текстового и фонемного поиска речевых документов по текстовому запросу, алгоритмов фонемного транскрибирования и меры сходства фонем. Автор принимал непосредственное участие в программной реализации алгоритмов .

Структура и объем работы. Диссертация состоит из введения, четырх глав, списка использованной литературы из 119 наименований. Общий объем работы составляет 145 страниц текста, 43 рисунка и 35 таблиц .

ГЛАВА 1. Анализ методов поиска речевой информации ГЛАВА 1 .

Анализ методов поиска речевой информации Поиск речевой информации находится на пересечении таких научных областей как обработка сигналов и обработка естественного языка. В данной главе даны основные понятия, представлена общая схема информационнопоисковых систем речевой информации, приведены типы ошибок распознавания и классификация моделей поиска. Проведн сравнительный анализ описанных методов поиска, а также сделан обзор систем поиска речевой информации .

1.1 Введение Широкое распространение профессиональных и бытовых технических устройств, таких как: видео- и фотокамеры, смартфоны и т.п., которые позволяют создавать, хранить и распространять контент медиа-формата, в совокупности с быстрым развитием информационно-коммуникационных систем привели к взрывному росту количества документов с [1] мультимедийным, в том числе с речевым содержанием. Примерами мультимедийных документов с речевым содержанием (МДРС) являются радиои видео-новости, аудиокниги, записи докладов конференций и, в последнее время, образовательные материалы в виде аудио- и видео-лекций, интерактивные учебные фильмы и мультимедийные методические разработки [2] .

Задача поиска МДРС в широком смысле относится к т.н. области поиска речевой информации (Spoken Content Retrieval, SCR) [3, 4]. Анализу проблем в области SCR и разработке методов их решения посвящено большое количество как зарубежных [3-11, 17-26, 37-40], так и отечественных [12-16, 27-36] научных исследований. В общем случае SCR задача заключается в определении «соответствия содержания» речевого сигнала текстовому или устному запросу пользователя. Понятие «соответствие содержания» может подразумеваться как ГЛАВА 1. Анализ методов поиска речевой информации семантическое (смысловое) сходство, так и обнаружение слов запроса в произносимой речи. В первом случае говорят о семантическом поиске речевой информации (Semantic Retrieval of Spoken Content), во втором – об обнаружении речевых терминов (Spoken Term Detection, STD). Существует задача обнаружения ключевых слов (Keyword Spotting, KWS), которая отличается от задачи STD тем, что поиск ключевых слов выполняется по запросам, составленным из слов заранее заданного множества, настроенного для поиска по конкретным речевым данным [4, 16, 17]. Отдельно выделяется поиск документов с речевым содержанием, соответствующих запросу пользователя, и называется Spoken Document Retrieval (SDR) [3, 6, 11]. Также существует голосовой поиск (Voice Search), который заключается в поиске по тексту при устном запросе [18] .

Таким образом, существует три вида поиска, связанного с обработкой речевой информации:

поиск речевой информации по текстовому запросу, поиск речевой информации по устному запросу, поиск по тексту при устном запросе .

Рассмотрим основные методы поиска речевой информации по запросу пользователя .

1.2 Методы поиска речевой информации

Выделяют две группы методов поиска речевой информации [4]. Первая группа методов представляет поиск речевых документов на акустическом уровне. При этом существенным недостатком является недоступность лингвистической информации на акустическом уровне обработки речевой информации. Методы второй группы заключаются в поиске по содержанию, полученному в результате автоматического распознавания спонтанной слитной речи. Трудность поиска по распознанному содержанию речевых документов заключается в возможном наличии ошибок распознавания .

ГЛАВА 1. Анализ методов поиска речевой информации Начальная обработка речевой информации, независимо от используемого метода, состоит в извлечении акустических признаков речевого сигнала .

1.2.1 Поиск речевой информации без распознавания речи Поиск речевой информации без распознавания речи заключается в использовании акустических признаков для определения степени соответствия слов запроса пользователя словам, произносимых в обрабатываемом речевом сигнале. Методы поиска такого подхода обычно применяются при устном запросе на естественном языке [4, 19-24]. Акустические признаки извлекаются непосредственно из оцифрованной версии аудио-сигнала. Слова, произносимые в речевых документах и слова запроса, сравниваются на «низком» уровне .

Сравнивать два речевых сигнала, соответствующих документу и запросу, без распознавания фонетических и лингвистических единиц позволяет широко известный алгоритм динамической трансформации временных рядов (Dynamic Time Warping, DTW) [25]. Посредством алгоритма DTW определяется оптимальное соответствие между речевым документом и устным запросом на акустическом уровне. Сопоставление выполняется непосредственно между речевыми сигналами или последовательностями, состоящими из векторов энергетических, спектральных (мел-кепстральные коэффициенты - MFCC), статистических (коэффициенты линейного предсказания) или других параметров фрагментов речевых сигналов. Алгоритм DTW относится к алгоритмам динамического программирования и позволяет вычислить меру отличия двух временных рядов в виде расстояния в евклидовой метрике .

Существуют различные модификации алгоритма DTW для поиска речевой информации, которые учитывают различие темпа произношения слов в устном запросе и речевом документе, например [20] .

При сопоставлении речевых последовательностей на основе алгоритма DTW не учитывается лингвистическая информация, содержащаяся в речевом сигнале. Поэтому использование алгоритма DTW может приводить к ГЛАВА 1. Анализ методов поиска речевой информации пропускам ключевых слов в том случае, если акустические характеристики голоса диктора МДРС (частота основного тона, темп речи, отношение гармоник основного тона к шуму и т.д.) существенно отличаются от акустических характеристик голоса пользователя ИПС при устном запросе .

Можно также отметить метод поиска [4], в которых, вместо распознавания фонетических или лингвистических единиц речи на основе акустической модели, требующей обучения по размеченным вручную данным, выполняется автоматическая кластеризация и обобщение признаков речевого сигнала .

Сходные кластеры формируют «акустические паттерны». Речевые сигналы делятся на кадры, каждый из которых характеризуется распределением апостериорных вероятностей полученных акустических паттернов. Описанный способ параметризации также позволяет использовать алгоритм DTW для поиска МДРС .

Отсутствие этапа АРР в методах данного подхода позволяет исключить влияние ошибок распознавания речи на эффективность поиска ключевых слов .

С другой стороны использование только акустических признаков приводит к необходимости учитывать высокую вариабельность и статистическую избыточность, зависимость от состояния и параметров речи диктора [16] при поиске. Поиск только на основе акустических признаков не позволяет учесть лингвистическую информацию произносимых слов в речевом сигнале .

1.2.2 Поиск речевой информации с распознаванием речи Методы данного подхода ориентированы на восстановление произнесенных в речевых документах слов путм автоматического распознавания речи (АРР). В результате АРР акустический сигнал преобразуется в последовательность слов, что позволяет при поиске учитывать языковую структуру распознанных слов и фраз. Использование лингвистической информации снижает влияние различающихся параметров речи дикторов на эффективность поиска в целом [26]. Чаще всего методы ГЛАВА 1. Анализ методов поиска речевой информации поиска на основе АРР применяются при текстовом запросе пользователя, но могут использоваться и при устном [4] .

Речевой сигнал складывается из звуков (аллофонов), произношение и представление которых зависит от фонетического окружения, качества записи речи, дикции говорящего, коартикуляции и прочих условий, что приводит к высокой вариабельности речевых сигналов и усложняет задачу распознавания [26] .

Распознавание речи выполняется последовательно на нескольких уровнях [15]. Результаты текущего уровня являются входными данными для следующего. Для решения задачи распознавания обычно используются скрытые марковские модели (Hidden Markov Models, HMM) или нейронные сети [3, 4, 15]. Соответствие извлеченных акустических признаков аллофонам задается акустической моделью. Последовательности аллофонов определяют фонемные транскрипции, характеризующие произношение слов «в среднем» .

Затем выбираются возможные варианты произнесенных слов по словарю, содержащем слова с фонемными транскрипциями, также называемый лексиконом. Окончательный вариант распознавания слова определяет используемая языковая модель (N-граммная статистическая модель языка) или грамматика (набор правил), которые накладывают ограничения на возможные последовательности слов в конкретном языке. Приемлемое качество распознавания достигается использованием большого объма акустической, языковой моделей и лексикона, что значительно увеличивает вычислительные затраты на обработку данных .

Также существует метод АРР, использующий теорию активного восприятия [27] из области обработки изображений, который применим в условиях априорной неопределнности множества акустических признаков [28, 29] .

Отдельно можно выделить метод фонетического декодирования слов [30], позволяющий исключить на этапе предобработки акустического сигнала ГЛАВА 1. Анализ методов поиска речевой информации процедуру динамического выравнивания слов по темпу речи диктора, что повышает скорость распознавания. Данный метод опирается на информационную теорию восприятия речи [31], основной которой служит критерий минимального информационного рассогласования и кластерная модель речевых единиц [32-34]. Информационная теория восприятия речи применима во многих приложениях обработки и анализа речи [35, 36] .

Основным недостатком использования АРР для поиска речевой информации является наличие ошибок распознавания, которые искажают содержание речевых документов и снижают эффективность поиска в целом [6] .

Качество распознавания при этом зависит от акустических параметров речевого сигнала (например, шум, темп речи, интонация, акцент), а также от разнообразия произносимых слов .

Особый случай при распознавании представляют слова, не входящие в лексикон. Проблема распознавания несловарных слов известна в литературе под названием «Out-Of-Vocabulary» (OOV) [3, 6], один из способов решения которой заключается в распознавании составных частей слов. В качестве распознаваемых частей могут выступать CVC/VCV-признаки [7, 37], N-граммы [10, 11] или морфемы [38]. Такой способ позволяет снять ограничение на множество распознаваемых слов лексикона. Но при этом требуется определение взаимосвязей между распознаваемыми единицами так, чтобы распознанная последовательность частей представляла слово, являющимся основной единицей языка и представляющим сложное смысловое, звуковое и грамматическое единство, каждая из сторон которого не может существовать изолированно [12]. В результате усложняются модели, значительно увеличивается время распознавания, а также снижается точность распознавания входящих в лексикон слов .

Иногда распознанные слова (части слов) представляют вместо последовательности посредством ориентированного графа, содержащего несколько вариантов распознавания [14, 39]. Узлы такого графа соответствуют ГЛАВА 1. Анализ методов поиска речевой информации словам (частям слов), а дуги – значениям вероятности перехода к следующему узлу. Данный граф называется решткой (lattice).. Обычно одна рештка соответствует нескольким вариантам распознавания одной фразы или документа в целом. Заметим, что при большом количестве вариантов результатом распознавания может стать некорректная последовательность слов .

Другим способом решения OOV-проблемы является распознавание речи в последовательность фонем [6, 40], используя фонемную модель языка, при этом общая точность распознавания обычно ниже, чем при традиционном подходе .

Возможно после распознавания речи в текст выполнение последующего фонемного транскрибирования [11], заключающееся в преобразовании слова, записанного в виде последовательности букв, в последовательность фонем, отображающую произношение этого слова. Транскрибирование может выполняться по словарю фонемных транскрипции, например, для английского языка - по словарю произношений от университета Карнеги-Меллон [41] или на основе правил [6] .

На рисунке 1.1 приведены форматы представления результата АРР .

Рисунок 1.1 – Форматы представления результата АРР ГЛАВА 1 .

Анализ методов поиска речевой информации Поиск происходит по распознанному содержанию речевых документов .

Запрос пользователя преобразуется в формат представления распознанного содержания (Рисунок 1.1). В процессе поиска оценивается соответствие содержания речевых документов запросу пользователя. Основной трудностью определения соответствия, как отмечалось выше, является возможное наличие ошибок распознавания .

Выделяют следующие типы ошибок распознавания:

изменение части слова (например, бивалютный валютный, информации информация);

замена слова (например, олимпийском политическом, этого итогам);

разбиение слова (например, обеспечения на посещении, босую бас волю);

объединение слов и предлогов (союзов) (например, в студии вступил, сочи и случае) .

Определение соответствия выполняется на основе различных алгоритмов сравнения, использующие, например, VCV-признаки, расстояние Левенштейна, N-граммы фонем. Алгоритм сравнения может учитывать вероятности ошибок распознавания фонем, полученные при фонемном распознавании обучающего множества данных, для которого распознанные фонемные последовательности выровнены с эталонными. Другим примером является алгоритм, использующий соответствующие сегментам речевых документов рештки слов, который оценивает правдоподобие появления слова в речевом документе .

–  –  –

форматом представление запроса пользователя Q, функцией релевантности f d k, Q .

Возможные форматы представления содержания документов в результате АРР, рассмотрены в п.1.2.2. Формат представления запроса соответствует формату представления содержания документов .

Функция релевантности определяет степень соответствия документа запросу. Степень соответствия выражается 0 или 1, то есть «не соответствует»/«соответствует», либо вещественным значением на отрезке [0, 1]. В первом случае информационный поиск рассматривается как задача классификация на два класса (фильтрация) и в результате поиска выводятся все документы коллекции, получившие степень соответствия равную 1. Во втором задача ранжирования, тогда результатом поиска является отсортированный по значениям степени соответствия список документов коллекции .

В информационном поиске выделяют статистический и семантический подходы к определению релевантности [42]. При статистическом подходе происходит вычисление статистической меры близости между словами запроса и документов. В семантическом подходе используется синтаксический и семантический анализ для установления связей между фрагментами документов и запросом, а также для выделения смысла документов .

Большинство моделей информационного поиска ориентированы на обработку текстов и используют статистические закономерности слов естественного языка. Данные модели могут быть адаптированы для поиска по видео, аудио и изображениям .

ГЛАВА 1. Анализ методов поиска речевой информации МДРС содержат спонтанную слитную речь на естественном языке, которая является наиболее трудной для АРР .

Такая речь характеризуется изменчивым темпом, то есть длительность пауз между произносимыми словами различна .

Речь в МДРС произносится одним или несколькими дикторами и состоит из большого количества слов, относящихся к разным тематикам, что увеличивает размеры акустической и языковой моделей, а также лексикона, используемых при АРР. Соответственно, в результате АРР возникают ошибки, что, как уже отмечалось, составляет основною трудность поиска МДРС. Искажение слов, распознанных в произносимой речи МДРС, существенно влияет на эффективность поиска .

Выделяют основные три вида моделей информационного поиска [43]:

теоретико-множественные (например, булева), алгебраические (например, векторная), вероятностные (например, языковая) .

Рассмотрим в общем виде основные модели информационного поиска [1] .

1.3.1 Булева модель В булевой модели документ рассматривается как множество независимых слов, такой формат представления известен под названием «мешок слов» .

Документ, содержащий слова запроса, считается релевантным и выводится пользователю. Запросы могут содержать логические операторы AND, OR и NOT. При поиске документов часто используется инвертированный индекс [1] .

Инвертированный индекс показывает для каждого слова коллекции документов соответствующие документы коллекции, которые содержат данное слово, и позицию слова в содержании этих документов .

При поиске для каждого запросного слова строится список документов, содержащих данное слово. Затем в зависимости от логического оператора в запросе списки объединяются или пересекаются. В классической булевой модели результирующий список соответствующих запросу документов не ГЛАВА 1. Анализ методов поиска речевой информации ранжируется. Использование значений позиций слов в документе в инвертированном списке позволяет ранжировать результаты поиска [1, 42] .

–  –  –

d k x0, x1,..., xn, где x i – вес слова wi T .

Существуют различные методы взвешивания слов в информационном поиске, основанные на статистических характеристиках встречаемости слов в текстах [44]. Широко используемым методом является tf-idf [45], по которому вес слова определяется

–  –  –

где d k wi – количество документов, содержащих слово wi .

Запрос аналогично документам представляется вектором q y0, y1,..., y n, где y i равно 1, когда wi слово встречается в запросе, и 0 - когда нет .

Функция релевантности определяется через близость векторов d k и q. В текстовом поиске применяется косинусная мера близости векторов, то есть вычисление косинуса угла между векторами [45, 46]

–  –  –

где si, j – значение сходства слов классифицируемых текстов. Значение сходства слов определяется «по смыслу», применяя словарь синонимов, или «по написанию», вычисляемое как расстояние Левенштейна .

Достоинства векторной модели заключаются в простоте реализации и наличии различных методов взвешивания терминов. Также данная модель обычно дает наилучшие результаты по сравнению с другими классическими моделями информационного поиска. Стоит отметить, что векторная модель использует различные эвристики при взвешивании слов документов и оценке релевантности, а также основана на предположении о независимости слов в документах, что в общем случае не является верным .

–  –  –

где R – индикатор релевантности, который в случае соответствия документа d k запросу Q равен 1, иначе – 0 .

Одна из простых вероятностных моделей, использующая принцип PRP, является бинарная модель независимости (Binary Independence Model, BIM). В BIM используется предположение о независимости слов, встречающиеся в документах коллекции. Документу d k ставится в соответствие бинарный вектор инцидентности d k x0, x1,..., xN, где xi 1, если слово wi из словаря T встречается в документе, иначе xi 0. Аналогичным образом запросу Q сопоставляется вектор Q. Позиции слов в документах не учитываются, поэтому документам, содержащим одинаковые слова, сопоставляется один и тот же вектор. Функция релевантности определяется правилом Байеса

–  –  –

где Pa - априорная вероятность гипотезы a, Pb - вероятность наступления события b, Pb | a - вероятность наступления события b при условии истинности гипотезы a и Pa | b - апостериорная вероятность гипотезы a при условии события b .

То есть

–  –  –

где q i - слово запроса Q, idfqi – обратная документная частота (1.2), tf qi, d k – количество вхождений qi в документ d k, ld k – длина документа d k, l D –

–  –  –

1.3.4 Языковая модель К вероятностным моделям также относятся языковые [4, 51]. Функция релевантности оценивает правдоподобие соответствия документа запросу, используя распределения слов. Обычно основаны на правиле Байеса (1.6) .

Выделяют униграммные и N-граммные языковые модели .

Униграмная языковая модель предполагает независимость встречаемости слов в документе, тогда вероятность последовательности из N слов определяется как

–  –  –

В N-грамных языковых моделях учитываются слова на соседних позициях в документах. Например, в биграммной модели появление слова зависит от слова, стоящего на предыдущей позиции Pw0, w1,..., wn Pw0 Pw1 | w0... Pwn | wn1. (1.10) ГЛАВА 1. Анализ методов поиска речевой информации Существуют более сложные языковые модели, учитывающие, например, тематику документов .

Языковые модели позволяют отойти от предположения независимости появления слов в документах, которое не является верным. Также данные модели теоретически обоснованы, тогда как булева и векторная модели основаны на эвристиках. Трудность использования вероятностных моделей заключается в оценке вероятностей при вычислении функции релевантности .

Вероятности оцениваются на основе частот встречаемости слов в документах, но при этом необходимо выполнять сглаживание, чтобы избежать нулевых вероятностей не встретившихся комбинаций слов. Также важно подобрать репрезентативный набор обучающих данных .

Одним из способов уточнения вероятностей является оценка посредством обратной связи по релевантности [1], то есть при выполнении текущего поиска по конкретному запросу дополнительно для оценки вероятностей используется выбор документов пользователем при предыдущем поиске. При этом необходимо наличие результатов поиска по данному запросу .

1.3.5 Классификация моделей поиска речевой информации Рассмотренные модели поиска наиболее распространены при текстовом представлении документов и запроса. Принимая во внимание возможность представления содержания речевых документов и устного запроса с учтом акустической информации, можно выделить следующие критерии классификации моделей поиска речевой информации:

- формат представления речевых документов и запроса пользователя,

- метод сравнения слов при оценке релевантности .

Классификация представлена на рисунке 1.2 .

ГЛАВА 1. Анализ методов поиска речевой информации Рисунок 1 .

2 – Классификация моделей поиска речевой информации Существуют модели информационного поиска, выполняющие обработку данных на более высоком уровне - семантическом. Извлечение смысла содержания документов и запроса происходит на основе онтологии, которая подготовлена экспертами некоторой предметной области. Но в этом случае также присутствует начальная обработка документов и запроса на основе описанных выше моделей информационного поиска .

1.3.6 Общая схема поиска речевых документов Процесс поиска МДРС включает основные три этапа: обработка содержания речевых документов, обработка запроса и ранжирование .

Обработка содержания речевых документов заключается в преобразовании акустического сигнала в формат определяемый используемой моделью информационного поиска и возможным последующим индексированием .

Индексирование состоит в построении индексов документов, отражающих их ГЛАВА 1. Анализ методов поиска речевой информации содержание, и позволяет оптимизировать процесс поиска. Обработка запроса необходима для приведения запроса к представлению сходному с индексами содержимого документов. Дополнительно обработка запроса может включать процедуру нормализации, то есть приведение к начальной форме слов, и процедуру расширения/уточнения, например, добавление слов синонимов или снятие омонимии. Ранжирование включает вычисление оценки релевантности и упорядочивание речевых документов в соответствии с данной оценкой .

На рисунке 1.3 представлена обобщнная схема поиска МДРС по текстовому и устному запросу. Данная схема отражает обе группы методов поиска речевой информации, описанных выше. Один из групп представляет низкоуровневый поиск по акустическим признакам, вторая группа основана на АРР и может включать дополнительную обработку документов и запроса .

Стрелки черного цвета на рисунке 1.3 показывают основные этапы поиска речевой информации по текстовому запросу при использовании распознавания содержания речевых документов в текст. Серыми стрелками показаны этапы поиска речевой информации при устном запросе .

Рисунок 1.3 – Обобщенная схема взаимодействия компонентов информационно-поисковой системы МДРС ГЛАВА 1 .

Анализ методов поиска речевой информации Выделим следующие этапы предобработки речевых документов и устного/текстового запроса до процедуры вычисления оценок релевантности:

- извлечение признаков речевого сигнала,

- автоматическое распознавание речи,

- обработка (стемминг, расширение и т.д.),

- индексирование .

Наличие и реализация обозначенных этапов обработки речевых документов и запроса определяется моделью и методом поиска .

1.4 Сравнение слов Метод поиска определяется форматом представления данных. В случае поиска речевой информации с использованием АРР, данные обычно представляют текст, соответствующий распознанной произнеснной речи и запросу пользователя. Выделяют методы точного и приближнного (нечткого) сравнения слов. Точное сравнение проверяет побуквенное совпадение строк, а приближнное сравнение позволяет оценить степень совпадения строк, учитывая возможное искажение сравниваемых слов. Алгоритмы приближнного сравнения можно разделить на текстовые и фонетические .

В процессе поиска независимо от модели определяется вхождение слов запроса в документ. Для этого используются различные меры сходства или отличия слов (вычисляется расстояние между словами) [52]. Ниже рассмотрены методы текстового и фонетического поиска, а также приведена классификация методов поиска речевых документов относительно способов сравнения слов .

1.4.1 Текстовое сравнение слов Текстовый поиск широко используется при обработке текста и встречается в таких задачах как проверка орфографии, анализ ДНК, обнаружение плагиата, сопоставление именованных сущностей (name matching) [53, 54] в тексте. К алгоритмам текстового поиска относятся алгоритмы поиска подстроки в строке ГЛАВА 1. Анализ методов поиска речевой информации или алгоритмы поиска по словарю [55]. В первом случае, в длинной строке требуется найти вхождение короткой строки, а во втором - определить сходство двух строк. Строка представляется последовательностью букв. Существуют алгоритмы точного (exact) и приближенного (approximate) сравнение строк (string matching) .

Точное сравнение строк подразумевает побуквенное совпадение .

Примерами алгоритмов точного поиска являются наивный алгоритм прямого поиска [56], алгоритм Кнута-Мориса-Пратта [57], алгоритм Бойера-Мура [58], алгоритм Ахо-Корасика [59] и алгоритм Рабина-Карпа [60], отличающиеся по вычислительной сложности .

Приближнное сравнение определяет сходство строк, допуская возможное искажение одной строки относительно другой. Приближнное сравнение строк часто используется при поиске по словарю. Существуют различные алгоритмы приближнного сравнения строк [61-67]. Алгоритмы приближнного сравнения строк используются при вычислении значения меры сходства двух строк .

Можно выделить две группы мер сходства строк .

Меры первой группы основаны на нахождении наибольшего общего подмножества букв обеих строк. Например, вычисление коэффициента БраунаБланке

–  –  –

ГЛАВА 1. Анализ методов поиска речевой информации из строк для преобразования е во вторую строку .

Соответствующий пример для коэффициента Брауна-Бланке

–  –  –

где h x, y - значение расстояния редактирования строк x и y .

Примерами первой группы являются алгоритмы нахождения наибольшей общей подстроки или подпоследовательности, сравнения строк на основе N-грамм. К примерам второй группы можно отнести расстояние Левенштейна и Дамерау-Левенштейна, расстояние Джаро и Джаро-Винклера .

1.4.2 Фонетическое сравнение слов Алгоритмы фонетического сравнение слов позволяют определять сходство строки на основе произношения [68-71]. Данные алгоритмы эффективно применяются при поиске в базе данных или словаре, когда встречается частое неправильное написание, например, фамилий [68] .

Общий принцип фонетических алгоритмов заключается в том, что строке ставится в соответствие ключ, формируемый на основе правил произношения слов конкретного языка. Последующий поиск выполняется по полученным ключам. Обычно правила заключаются в замене букв на буквы близкие по произношению, в удалении гласных или двойных согласных .

Первым алгоритмом фонетического сравнения слов считается Soundex, разработанный в 1910-х годах для поиска записанных на английском языке фамилий и имн [68]. Алгоритм использует разбиение согласных букв на группы по сходству произношения. Каждой группе соответствует порядковый номер .

ГЛАВА 1. Анализ методов поиска речевой информации

Ниже приведен алгоритм преобразования строки s в ключ k :

–  –  –

Например, Robert и Rupert будет переведен в ключ R163, а Rubin - в R150 .

В последствии были предложены улучшения данного алгоритма, повышающие точность сравнения.

Так, например, количество групп согласных букв было увеличено:

–  –  –

В 1985 г. появился алгоритм Daitch-Mokotoff Soundex ориентированный на восточно-европейские (в том числе русские) фамилии. В настоящее время распространен более точный алгоритм Metaphone, появившийся в 1990-х гг., ГЛАВА 1. Анализ методов поиска речевой информации который использует расширенные правила произношения для английского языка. В 2002 году был представлен адаптированный для русского языка алгоритм Metaphone [71]. Данный алгоритм преобразует исходную строку в ключ в соответствии с правилами и нормами русского языка, учитывая фонетическое звучание безударных гласных и возможные «слияния» согласных при произношении. Так, например, гласные буквы в строке заменяются на гласные, которые слышатся в безударном слоге в соответствии с таблицей 1.2

–  –  –

Также выполняется удаление повторяющихся символов и сжатие окончаний, например, –ук, –юк, –ина, –ик, –ек, –ых, –их, –ов, –ев .

Описанные алгоритмы основаны на правилах, которые формулируются в зависимости от преобразуемых строк и не являются универсальными .

1.4.3 Классификация методов поиска по способу сравнения слов Поиск основан на сравнении слов запроса со словами, полученными в результате АРР речевых документов коллекции. Сравнение слов заключается в определении степени сходства, вычисляемой посредством меры сходства (близости) [52] слов. Существуют различные способы сравнения слов .

Используемый способ сравнения слов определяет метод поиска .

Классификация методов поиска в зависимости от используемой меры сходства представлена на рисунке 1.4 .

ГЛАВА 1. Анализ методов поиска речевой информации

–  –  –

Текстовый метод поиска подразумевает сравнение слов по написанию, (примеры рассмотрены в разделе 1.4.1), фонетический - по произношению (примеры рассмотрены в разделе 1.4.2), а семантический - по смыслу .

Семантический поиск сопряжен с трудностью определения смысла слов, возникающей, в частности, из-за наличия в языке одинаково пишущихся слов, но имеющих различные значения (омонимы). Алгоритмы семантического поиска обычно используют словарь синонимов или заранее подготовленную экспертами онтологию конкретной области .

ГЛАВА 1. Анализ методов поиска речевой информации

1.5 Фонемное транскрибирование Некоторые методы поиска речевой информации используют процедуру фонемного транскрибирования. Рассмотрим данную процедуру более подробно .

Произношение слов передается последовательностью звуков, характеризуемых различными акустическими признаками. Одно из общепринятых представлений заключается в том, что каждый звук языка является аллофоном [72]. Аллофонов существует большое количество, каждый из которых определяется параметрами голоса диктора и окружением в произносимом слове. Аллофон является реализацией некоторой фонемы .

Близкие по звучанию аллофоны относятся к одной фонеме [73] .

Фонема является единицей звукового строя языка, служащая для различения морфем, а впоследствии и слов [74]. Формально фонемы можно представить точками многомерного пространства, значения координат которых определяют степень проявления различных свойств произношения [73] .

Последовательность фонем, передающая общее произношение некоторого слова, формирует его фонемную транскрипцию .

Транскрипция является одним из способов передачи произношения слов [75]. Выделяют фонемную (фонематическую) и фонетическую транскрипции .

Фонемная транскрипция отражает фонемный состав слова, а фонетическая – звуковые особенности реализации фонем в разных условиях [76]. В литературе встречается другие названия фонемного транскрибирования такие как графемно-фонемное [77] или буквено-звуковое [78] преобразование .

Большинство языков, в том числе и русский, имеют сложное и неоднозначное соответствие между графемами (буквами) и фонемами [77] .

Одна фонема может выражаться при написании различными буквами, кроме того, разные фонемы могут передаваться одной буквой .

ГЛАВА 1. Анализ методов поиска речевой информации

1.5.1 Классификация алгоритмов фонемного транскрибирования Задача преобразования графемной (буквенной) записи слова в фонемную последовательность часто встречается в области речевых технологий, например, при составлении словаря распознавания, синтезе речи, определении соответствия слов при поиске речевой информации .

Выделяют [77, два подхода к решению задачи фонемного 78] транскрибирования. Методы «традиционного» подхода (на основе знаний) используют словарь или набор лингвистических правил [79-83], сформированные экспертом-лингвистом. Методы «альтернативного» подхода (на основе данных) [77, заключаются в обучении алгоритма 84] транскрибирования по словарю, содержащем буквенные и фонемные формы представления слов .

Недостаток первого подхода заключается в ограниченности словаря и необходимости ручного составления набора правил, требующих периодического пересмотра и обновления. Недостатком второго подхода является зависимость качества транскрибирования от обучающих данных .

Более подробная классификация [77] методов транскрибирования приведена на рисунке 1.5 .

Рисунок 1.5 – Классификация методов транскрибирования .

ГЛАВА 1. Анализ методов поиска речевой информации Среди методов «альтернативного» подхода можно выделить основные три группы алгоритмов [77, 78] .

Алгоритмы транскрибирования посредством локальной классификации определяют фонемы последовательно для каждой буквы в зависимости от е окружения в слове. При этом решение принимается по каждой позиции до перехода к следующей .

При транскрибировании «по аналогии» просматривается обучающий словарь, и находятся слова или части слов сходные по некоторому критерию с транскрибируемым словом. В результате по аналогии формируется транскрипция .

Третья группа алгоритмов транскрибирования использует некоторую статистическую модель произношения слов .

1.5.2 Графемно-фонемное выравнивание Алгоритмы фонемного транскрибирования, относящиеся к группе статистического моделирования, подразумевают наличие извлечнных из набора обучающих данных статистических зависимостей. В качестве обучающих данных обычно выступает словарь слов с их фонемными транскрипциями. На основе обучающего словаря происходит сопоставление букв с фонемами одного слова .

Сопоставление букв слова с фонемами его транскрипции относится к задаче графемно-фонемного выравнивания (grapheme-to-phoneme alignment, g2p alignment).

В общем случае возможны следующие виды сопоставлений между буквами и фонемами [77]:

один к одному, один ко многим, многие ко многим .

Примеры каждого вида сопоставлений представлены в таблице 1.3 .

–  –  –

Существуют различные алгоритмы графемно-фонемного выравнивания.

В качестве примера можно выделить алгоритмы [77, 78] на основе:

составленных вручную экспертом набора правил, динамического программирования, деревьев решений, нейронных сетей .

Задача графемно-фонемного выравнивания может быть сформулирована следующим образом. Пусть даны буквенная запись wC c1c 2...c m слова w и его фонемная транскрипция w 1 2... n. Необходимо сопоставить элементы последовательности wC с элементами последовательности w .

1.6 Системы поиска речевой информации Большинство информационно-поисковых систем и модулей ориентированы на обработку текстовых данных. В качестве примеров можно привести поисковый модуль Indri и библиотеку Lucene, используемую в таких проектах как Solr, Nutch и Elasticsearch. Также существуют стеммеры, морфологические, синтаксические анализаторы, онтологии и другие необходимые инструменты анализа текста для различных языков в том числе и русского .

Первоначально поиск мультимедиа данных осуществлялся по текстовым аннотациям и тегам. Последнее два десятилетия появляются системы, позволяющие выполнять поиск видео, изображений и аудио по их содержанию .

ГЛАВА 1. Анализ методов поиска речевой информации В начале второй половины 90-х гг .

XX в. появилась SDR-секция на конференции TextREtrieval (TREC) [85], предназначенная для оценивания эффективности методов поиска речевых документов. Эффективность методов поиска оценивалась посредством обучающего и тестового множеств новостных аудио файлов длительностью около 100 часов, количество тестовых новостных сюжетов составило 1451 историю (около 400 000 слов) на английском языке .

Тестовое множество запросов содержало около 50 запросов, каждый из которых соответствовал одной или двум новостным историям. Участие в дорожке принимали, например, компании AT&T и IBM, университеты Карнеги-Меллон (CMU) и штата Массачусетс .

SDR-дорожка проработала три года и показала наличие интереса к разработке методов поиска речевых документов, а также способствовала появлению в будущем различных SDR-систем для речи на английском языке .

Рассмотрим некоторые примеры систем .

В работе [86] рассмотрена одна из первых SDR-систем, которая ориентирована на поиск почтовых видео-сообщений по голосовым запросам, сформированных пользователем из множества ключевых слов. Для каждой пары документ-запрос оценивание релевантности выполняется посредством определения суммы весов слов запроса, входящих в документ и вычисленных с учетом обратной документной частоты .

Система, использующая при индексировании VCV-признаки, представлена в работе [37]. В системе используется векторная модель поиска на основе косинусной меры сходства и tf-idf метода взвешивания слов .

Метод фонемного поиска на основе векторной модели с tf-idf методом взвешивания слов описан в работе [40] .

Подобный метод поиска реализован при разработке цифровой мультимедиа-библиотеки «Informedia» (The Informedia Digital Video Library) университета Карнеги-Меллон [87]. Система поиска речевых документов «Informedia» основана на комбинировании методов текстового и фонемного ГЛАВА 1. Анализ методов поиска речевой информации поиска. Также в системе используется процедура выделения основ слов («стемминг») для снижения влияния вариативности окончаний слов на результаты поиска .

Модель вероятностного семантического анализа (probabilistic latent semantic analysis, PLSA) с фонемным поиском рассмотрена в работе [88]. В соответствии с указанной моделью ранжирование результатов выполняется по результатам вычисления линейной комбинации акустической и семантической оценок .

В [89] представлена система, использующая модуль распознавания речи IBM и предназначенная для обработки речевых данных контактных центров (call-центров). Данная система основана на вероятностной модели, в которой для поиска используются фонемные транскрипции, построенные на основе оценивания апостериорной вероятности .

Использование морфологического анализа в системе поиска речевых документов на основе вероятностной модели поиска предложено в работе [90] .

В работе [39] описана система на основе статистической N-граммной модели поиска, в которой используются рештки слов, построенные по языковой N-граммной модели .

В таблице 1.4 приведены модели и методы поиска речевых документов рассмотренных систем .

–  –  –

В качестве примеров аудио поисковых сервисов, доступных в интернете, можно привести поддерживаемый до 2008 года сервис Yahoo Audio Search и доступный в настоящее время сервис Audioburst Search. Возможность поиска аудио по текстовым запросам присутствует в Azure Media Sevice. Также можно выделить сервис Deepgram, позволяющий выполнять поиск по загруженным пользователем в систему аудио файлам, предварительно распознав речь в текст .

Данный сервис предлагается использовать журналистам для удобного анализа записанных в результате интервью речевых данных. Обозначенные сервисы доступны для речевых документов на английском языке и некоторых других, например китайском и польском .

Примерами систем поиска русскоязычных речевых документов по текстовому запросу являются системы таких компаний как «Центр речевых технологий» [91], «Стэл - Компьютерные сети» [92], «3i Technologies» [93] и «Speech Drive» [94, 95]. Среди них присутствуют системы, позволяющие в речевом потоке выделять заранее настроенные ключевые слова. В основном системы ориентированы на поиск по телефонным записям в контактных центрах. На сайте Speech Drive доступна для скачивания демо-версия системы Analyze, которая подразумевает взаимодействие со специализированным аппаратным и программным обеспечением SpRecord, используемом в телефонных сетях. На сайте компании «Центр речевых технологий» по запросу можно получить доступ к скачиванию пробной версии системы VoiceDigger, реализующей два алгоритма поиска ключевых слов в речевом потоке. Первый алгоритм заключается в поиске ключевых слов по заранее построенному индексу речевых данных, а второй алгоритм основан на построении для ГЛАВА 1. Анализ методов поиска речевой информации ключевого слова набора транскрипций, по которому строится скрытая марковская модель слова, используемая для поиска .

1.7 Показатели эффективности поиска Эффективность поиска характеризуется соответствием списка документов, ранжированного по значениям, вычисленным по соответствующей функции релевантности, и списка документов, релевантность которых оценивалась экспертом. То есть эффективность поиска характеризуется «адекватностью»

выдаваемых документов в результате поиска .

Трудность оценки эффективности поиска как и задача информационного поиска связана с определением релевантности содержания документа относительно запроса. Возможны случаи, когда документ по мнению разных экспертов в различной степени соответствует одному запросу .

Следует различать понятия релевантности и пертинентность .

Релевантность является семантическим соответствием содержания документа запросу пользователя [1]. Тогда как партинентность определятся соответствием содержания документов информационной потребности пользователя независимо от полноты и точности е выражения в запросе [1] .

Эффективность метода поиска определяется по результатам вычисления значений оценки релевантности документов коллекции запросу. То есть оценивание эффективности выполняется по тестовой коллекции, которая состоит из коллекции документов, множества запросов и соответствующих экспертных оценок релевантности документов запросам. Рекомендуется использовать тестовые коллекции, подготовленные на основе реальных данных и имеющие открытый доступ .

В рамках конференций посвященных исследованиям в области информационного поиска проводятся специализированные секции по оцениванию [85, 96] разработанных методов поиска на тестовых коллекциях. В большинстве предлагаемые тестовые коллекции содержат англоязычные ГЛАВА 1. Анализ методов поиска речевой информации документы. Семинар РОМИП [97] посвящен оценке методов поиска русскоязычных документов, но ориентирован на текстовые документы .

Вычисление показателей эффективности методов поиска в секциях конференций выполняется посредством программ, выложенных в общий доступ. Примером является программа trec_ eval [98] .

В данном разделе описаны показатели эффективности поиска, используемые при анализе разработанных методов поиска .

Полнота и точность. Основными и наиболее простыми показателями эффективности поиска являются полнота (Recall, R ) и точность (Precision, P ) [1]. Полнота является долей найденных релевантных документов среди всех релевантных, а точность - долей релевантных документов среди найденных .

В результате поиска по конкретному запросу документы коллекции делятся на «релевантные»/«нерелевантные» и «найденные»/«не найденные» .

Таблица сопряжнности данных признаков представлена (таблица 1.5) .

–  –  –

где a - истинно положительные, b - ложно положительные и c - ложно отрицательные документы ГЛАВА 1. Анализ методов поиска речевой информации Значения полноты и точности изменяются на отрезке [0; 1] или выражаются в процентах .

Необходимо рассматривать полноту и точность в совокупности, так как по отдельности данные показатели не характеризуют эффективность поиска в целом .

Рассмотрим пример. Пусть коллекция включает 100 документов, из которых 2 документа являются релевантными некоторому запросу. В случае, когда метод поиска определяет релевантными запросу все документы коллекции, то полнота равна 1, а точность - 0,02. Или метод поиска выдает только один документ, в соответствии запросу которого наиболее уверен, то есть имеет максимальную оценку релевантности. Тогда, в случае даже когда найден истинно релевантный документ, точность равна 1, а полнота 0,5 .

–  –  –

ГЛАВА 1. Анализ методов поиска речевой информации В примере предыдущего подраздела F1-мера для первого случая равна 0,0392, а во втором случае - 0,66 .

Интерполированный график «полнота-точность». Интерполированный график полнота-точность представляет 11-точечный график, отражающий изменение точности в зависимости от требований к полноте. Данный график дает более полную информацию, чем отдельные показатели полноты, точности и F-меры .

По оси абсцисс на графике откладываются значения полноты от 0 до 1 с шагом 0,1 (уровни), а по оси ординат – значения точности, достигаемые при соответствующих значении полноты .

Макроусредненная средняя точность. Рассмотренные выше показатели эффективности поиска не учитывают порядок документов в результирующем списке. Одним из часто используемых показателей эффективности ранжирования является средняя точность на K документах ранжированного списка (average precision at K), которая определяется 1K pk, ap @ K (1.19) K k 1 где p k равна значению точности, достигаемой на k первых документах ранжированного списка, если k-документ является релевантным запросу, или равна 0, иначе .

Например, значение ap@K ранжированного списка из трх документов, из которых первый и третий документы считаются релевантными запросу, а второй - нет, равно ap @ K 0. (1.20) ГЛАВА 1. Анализ методов поиска речевой информации Оценивание эффективности ранжирования метода поиска для нескольких запросов выполняется посредством макроусредненной средней точности (mean average precision at K, map@K) [1]. Данный показатель позволяет оценить эффективность метода поиска одним числом для различных значений полноты (уровней). Показатель map@K вычисляется как сумма значений показателя средней точности, вычисленного на первых K документах ранжированного по релевантности списка для каждого запроса из тестовой коллекции, и усредннная по количеству запросов

–  –  –

где ap @ K j - средняя точность для документов ранжированного списка длиной Kj .

Выводы

1. Выделены и проанализированы основные методы поиска речевой информации. Отмечено, что методы поиска речевых сигналов, применяемые к нераспознанному цифровому аудио-потоку, не позволяют выполнять поиск по текстовым запросам пользователя и не могут использовать лингвистическую информацию, содержащуюся в речи, в отличие от методов, использующих автоматическое распознавание речи (АРР) .

2. Использование лингвистической информации в методах с АРР снижает влияние вариабельности произношения слов разными дикторами при оценке релевантности речевых документов запросу .

3. Модели информационного поиска, применяемые для текстовых документов, могут быть использованы в методах поиска речевых документов на основе АРР. При этом для оценки релевантности документов запросу необходим дополнительный механизм учта ошибок распознавания речи .

ГЛАВА 1. Анализ методов поиска речевой информации

4. Предложена классификация моделей информационного поиска в зависимости от формата представления распознанного содержимого речевых документов и запроса, а также способов оценивания релевантности .

Выполнен анализ алгоритмов, используемых при сравнении слов с 5 .

ошибками в написании, а также сделан обзор систем поиска речевой информации. Показано, что рассмотренные методы поиска, не учитывают сходство слов «по произношению» при сравнении текстовых последовательностей, полученных системой АРР .

ГЛАВА 2. Разработка метода текстового поиска речевых документов ГЛАВА 2 .

Разработка метода текстового поиска речевых документов В главе исследуются и анализируются методы текстового поиска документов с речевым содержанием по текстовому запросу. Обсуждается вопрос выбора алгоритма приближенного сравнения строк для определения весовых коэффициентов, которые могут быть использованы при вычислении взвешенной функции релевантности. Описана векторная модель поиска на основе предлагаемой взвешенной косинусной меры. Рассмотрена вероятностная модель информационного поиска на основе взвешенной функции релевантности Okapi BM25. Приводятся примеры и результаты экспериментов. Эффективность методов поиска оценивается посредством значений F1-меры; также представлены графики «полнота-точность» .

2.1 Постановка задачи

–  –  –

где F – функция релевантности документа d k запросу Q. Оценка rk определяется для каждого документа коллекции D. Функция релевантности использует алгоритм обнаружения вхождений слов запроса в документ .

Сравнение слов документа со словами запроса посредством точного сравнения строк не позволяет учитывать возможные ошибки автоматического распознавания речи (АРР). Предлагается использовать в функции релевантности меру сходства слов, вычисляемую на основе алгоритма ГЛАВА 2. Разработка метода текстового поиска речевых документов приближенного сравнения строк. Результатом вычисления оценок релевантности является список документов, отсортированный по значению rk .

2.2 Распознавание спонтанной слитной речи

Начальной задачей системы поиска по содержанию речевых документов является восстановление в текстовом или фонетическом виде произнесенных дикторами слов по аудио-записям. Речевой сигнал складывается из звуков (аллофонов), произношение и представление которых зависит от фонетического окружения, качества записи речи, дикции говорящего и прочих условий, что приводит к высокой вариабельности речевых сигналов и усложняет задачу распознавания .

Качество распознавания речи определяется количеством правильно распознанных элементов речи – отдельных звуков, слогов, слов, или фраз по сравнению с произнеснными словами диктором. Ошибки распознавания не позволяют корректно обнаруживать слова запроса в распознанном содержании речевых документов .

Рассмотрим процесс распознавания речи более подробно и выделим основную сложность распознавания слитной речи .

В зависимости от типа произносимой речи можно выделить следующие виды распознавания [15, 16]:

распознавание команд позволяет распознавать небольшое количество слов в речевом потоке, в котором слова произносятся с длительными паузами около одной секунды. Данный вид распознавания не предназначен для распознавания слитной речи на естественном языке, а основным назначением является голосовое управление;

распознавание слитной речи позволяет восстанавливать слова, произносимые в привычном для человека темпе. Данный вид ГЛАВА 2. Разработка метода текстового поиска речевых документов распознавания использует большой словарь распознаваемых слов (лексикон) естественного языка и применяется, например, в системах диктовки .

В зависимости от количества дикторов выделяют:

дикторозависимое распознавание позволяет восстанавливать слова, произносимые конкретным диктором, на голос которого настроены параметры акустической модели;

дикторонезависимое распознавание позволяет в среднем с одинаковым качеством восстанавливать речь, произносимую различными дикторами .

Речевые документы содержат спонтанную слитную речь, произносимую различными дикторами. Как отмечалось в первой главе обычно при распознавании такого типа речи используется акустическая модель, фонетический словарь и языковая модель или грамматика .

Акустическая модель позволяет преобразовать непрерывный речевой сигнал в последовательность звуков. Существует различные единицы представления звуков, которые используются в акустической модели при распознавании речи. Звуки могут представляться фонами или последовательностью соседних фонов, например дифоны или трифоны, могут представляться аллофонами с учтом фонемного окружения .

Фонетический словарь обеспечивает преобразование звуков в лингвистические единицы: морфемы или слова. Заметим, что словарь может быть организован посредством перечисления пар «лингвистическая единица»

– «последовательность звуков» или как некоторая обучаемая функция соответствия .

Языковая модель содержит последовательности лингвистических единиц относящихся к конкретному языку. Обычно языковая модель строится на основе лингвистических единиц или конечных автоматов .

N-грамм Распознавание речи в последовательности морфем и объединение их в слова на ГЛАВА 2. Разработка метода текстового поиска речевых документов следующем уровне обработки является более универсальным и позволяет преодолеть ограничение, накладываемое на множество распознаваемых слов (OOV-проблема). Но в этом случае обычно снижается качество распознавания речи [99] .

Задача распознавания речи относится к труднорешаемым и в полной мере не решена к настоящему времени. Сложность заключается в том, что речь воспроизводится путм хорошо скоординированных и непрерывных движений органов артикуляции, характеризующихся неодинаковой инерционностью [15] .

В результате акустические свойства фонемы меняются в зависимости от фонетического окружения. Поэтому в процессе распознавания строится большое количество гипотез о фонеме, истинность которой определяется контекстом .

2.3 Анализ алгоритмов приближённого сравнения слов В рамках разработки текстовой модели поиска проанализируем алгоритмы сравнения слов, представленных в виде текстовых строк .

Большинство алгоритмов сравнения строк являются алгоритмами динамического программирования [55]. Для удобства дальнейшего изложения введем вспомогательную матрицу

–  –  –

ciy - i-ая буква в соответствующих строках .

Рассмотрим некоторые алгоритмы приближнного сравнения строк .

Одним из простых способов оценивания сходства двух строк x и y является длина наибольшей общей подстроки, являющейся непрерывной последовательностью совпадающих букв двух строк .

ГЛАВА 2.

Разработка метода текстового поиска речевых документов Длина наибольшей общей подстроки определяется максимальным значением элементов матрицы D, вычисленных посредством выражения [55]:

–  –  –

Приведнный алгоритм определяет количество совпадающих последовательно стоящих букв, при этом учитываются позиции букв в сравниваемых строках .

Рассмотрим пример сравнения слов. Пусть произносимое в речи слово «кран» распознано как «краб» в одном случае, а во втором – как «клан». Тогда в результате сравнении пар слов «кран»-«краб» и «кран»-«клан» будут получены значения длин наибольшей общей подстроки (1.12) равные 0,75 и 0,5, соответственно. Хотя в обоих парах присутствует по три совпадающих буквы .

Основной недостаток использования длины наибольшей общей подстроки для определения сходства слов заключается в том, что подстрока подразумевает непрерывное совпадение букв двух слов. Поэтому если ошибка встречается только в середине слова, то это существенно отражается на ГЛАВА 2. Разработка метода текстового поиска речевых документов значении сходства слов. Например, длина наибольшей общей подстроки слов «одноклассники» и «однаклассники» равна 9, хотя сделана одна ошибка и длины слов составляют 13 букв .

Другой способ приближнного сравнения строк заключается в нахождении длины наибольшей общей подпоследовательности. Данный способ учитывает только порядок совпадающих букв двух слов [55]. Элементы вспомогательной матрицы D при вычислении длины наибольшей общей подпоследовательности двух строк определяются как

–  –  –

Например, значение длины наибольшей общей подпоследовательности (1.12) для пары слов «кран»- «краб» и пары слов «кран»- «клан» составляет 3 в обоих случаях. А длина наибольшей общей подпоследовательности слов «одноклассники» и «однаклассники» равна 12 .

Общая подпоследовательность вычисляется независимо от расстояния между совпадающими буквами двух строк. Поэтому случай, когда строка содержит другую строку, может быть эквивалентен сравнению двух различных строк относительно сравнения на основе общей подпоследовательности .

Например, длины наибольших общих подпоследовательностей пар строк «кибератака»-«атака» и «кибератака»-«куропатки» составляет 5 букв .

Также в результате сравнения длинной строки с короткой строкой при поиске по словарю, когда значения длины общей подпоследовательности близко к длине короткой строки, в большом количестве случаев, приводит к ложным совпадениям. Например, длина общей подпоследовательности слов «доски» и «одноклассники» равна 5, тогда как длины слов составляет 5 и 13 букв (рисунок 2.2) .

ГЛАВА 2. Разработка метода текстового поиска речевых документов Рисунок 2 .

2 - Значения вспомогательной матрицы нахождения длины наибольшей общей подпоследовательности слов «доски» и «одноклассники» .

Широко используемым способом сравнения строк путм определения различия строк является вычисление расстояния Левенштейна, также известное как расстояние редактирования [61]. Расстояние Левенштейна равно минимальному количеству операций «вставки», «удаления» и «замены» буквы, которые необходимы для преобразования одной строки в другую .

Определить расстояние Левенштейна между двумя строками x и y позволяет алгоритм Вагнера-Фишера [62], который заключается в вычислении элементов матрицы D (2.2)

–  –  –

Расширением расстояния Левенштейна является расстояние ДамерауЛевенштейна, которое дополнительно учитывает операцию транспозиции (перестановка) соседних букв в строке [63] .

ГЛАВА 2. Разработка метода текстового поиска речевых документов Тогда

–  –  –

и C 4 – стоимость операций «транспозиции» .

Например, расстояние Дамерау-Левенштейна для слов «документ» и «докмуент» составляет 1, что соответствует операции перестановки 4-ой и 5-ой букв (рисунок 2.5) .

Рисунок 2.5 - Значения вспомогательной матрицы нахождения расстояния Дамерау-Левенштейна для слов «документ» и «докмуент»

Также существует расстояние Джаро, которое определяется количеством и порядком следования соответствующих букв двух строк [64]:

ГЛАВА 2. Разработка метода текстового поиска речевых документов

–  –  –

где k – количество соответствующих символов строк x и y, определяемые одинаковыми буквами двух строк, стоящих на позициях, разность которых не более некоторого числа, s - длина строки s, а t – количество перестановок (транспозиций) символов в двух строках .

Две буквы, стоящие на позициях i и j в строках x c0x, c1x,..., cnx и

–  –  –

Пример вычисления расстояния Джаро для слов «кибератака» и «куропатки». Определив, что H (9 / 2) 1 3, можно подсчитать количество соответствующих символов слов (см. Рисунок 2.6), то есть k 6 .

–  –  –

При сравнении слов «кибератака» и «куропатки» соответствующие символы представляют последовательность К, Р, А, А, Т, К, а при «куропатки»

и «кибератака» - К, Р, А, Т, А, К. Порядок в последовательностях не совпадает ГЛАВА 2. Разработка метода текстового поиска речевых документов в двух буквах, соответственно количество перестановок равно 1, то есть t 1 .

Тогда расстояние Джаро равно d Jaro 0,7 .

3 10 9 6 Расстояние Джаро-Винклера [65] является уточнением расстояния Джаро посредством добавления коэффициента масштабирования p и учета общего префикса l

d Jaro Winkler x, y d Jaro x, y lp 1 d Jaro x, y. (2.10)

Обычно коэффициент масштабирования p равен 0,1, а значение общего префикса l определяется относительно первых 4 букв слов .

Например расстояние Джаро-Винклера для слов «кибератака» и «куропатки» равно d JaroW inkler 0,7 1 0,1 1 0,7 0,73 .

Стоит заметить, что расстояния Джаро и Джаро-Винклера плохо работают для слов, начальные символы которых не совпадают. Например, для слов «кибератака» и «атака» значения обоих расстояний равны 0,43 .

В способах приближенного сравнения строк, кроме отдельных букв, также используются последовательности из N букв (N-грамм) слов [66]. В этом случае расстояние между двумя строками определяется как сумма их различающихся N-грамм. В случае, когда N=1, говорят об униграммах, когда N=2 – о биграммах, а N=3 – о триграммах .

Пусть задан конечный алфавит A, определено множество A * всех строк над данным алфавитом, и множество A N всех строк длины N. Тогда N-грамма является некоторой строкой из A N для конкретного N [66] .

Даны некоторая строка x a1..am из A * и N-грамма v из A N. Если i, i m, для которого верно ai..ai n 1 v, то строка x содержит N-грамму v .

Обозначим количество вхождений v в строку x как Gn x [v] .

Строки раскладываются на N-граммы следующим образом: начиная с первого символа, выделяется подстрока длиной N – первая N-грамма слова, ГЛАВА 2. Разработка метода текстового поиска речевых документов затем начиная со второго символа, выделяется вторая подстрока длиной N – вторая N-грамма и т.д. последовательно для всех букв строки. Каждому слову ставится в соответствие упорядоченный набор чисел, которые показывают количество вхождений N-грамм A N. Строка длиной l состоит из l N 1 последовательностей из N символов, которые перекрываются между собой N-1 символами .

Например, слово «документ» состоит из 6 триграмм: «док»-«оку»-«кум»уме»-«мен»-«ент» .

Расстояние между двумя строками на основе N-грамм определяется как сумма их различающихся N-грамм. При этом порядок следования N-грамм в словах не учитывается. То есть расстояние между строками x, y A на основе N-грамм вычисляется как L1-норма их N-грамм [66]

–  –  –

Например, для слов «документ» и «докмуент» расстояние на основе триграмм равно 4, биграмм равно 3, а униграмм равно 0, т.к. набор униграмм одинаковый (см. таблицу 2.1) .

–  –  –

Расстояние между строками может быть равно нулю даже в случае неравенства строк. Например, при вычислении расстояния между «документ» и «докмуент» на основе униграмм расстояние равно 0 (см. таблицу 2.1) .

ГЛАВА 2. Разработка метода текстового поиска речевых документов Вычислительно затратной подзадачей при сравнении строк x и y является определение количества вхождений N-грамм в строки, которая решается посредством известных методов .

Один из методов [66] заключается в преобразовании N-граммы в число v', следующим образом

–  –  –

где c A, bi' – порядковый номер буквы алфавит A. Строке ставится в соответствие набор из чисел v' j, определяемых при j 1..m, где m – длина строки. Затем для каждой сравниваемой строки формируется массив G длиной c q 1, в котором каждый элемент G[v' ] содержит количество вхождений v' N-граммы. Тогда расстояние между строками x и y вычисляется как сумма разностей соответствующих элементов массивов Gx и G y каждой строки

–  –  –

Во втором методе [66] используются суффиксные деревья или суффиксные автоматы .

При выборе алгоритма сравнения слов необходимо учитывать множество слов, которые будут сравниваться. Например, для определения сходства слов, в которых присутствуют пользовательские опечатки, со словами, которые правильно написаны, подойдут различные расстояния редактирования. При сравнении правильно написанных слов между собой, использование данных алгоритмов приведет к частому ложному срабатыванию. Например, пара слов «банан» и «баран» более сходны, чем пара «банан» и «банановый» .

В условиях поиска речевой информации при низком качестве распознавания речи выберем в качестве основных способов сравнения строк на основе наибольшей общей подстроки и расстояния Левенштейна .

ГЛАВА 2. Разработка метода текстового поиска речевых документов

2.4 Булева модель на основе приближённого сравнения слов Булева модель подразумевает представление документов d k коллекции D и текстового запроса Q в виде последовательностей слов wi и q j .

Функция релевантности вычисляется как

–  –  –

где q j, wi - значение меры сходства между словами q j Q и wi d k .

Рассмотрим пример на документах коллекции D представленных в таблице 2.2 .

Таблица 2.2 .

Содержание речевых документов коллекции Документ Верное содержание Распознанное содержание Документ 1 торжественно гарцевавших торжественно горцы ваших Документ 2 заметали следы за мечтали следы Документ 3 мечтали о золотом веке мечтали по золотому веки Пусть текстовым запросом Q являются слова «заметали следы» .

В таблице 2.3 показаны значения меры сходства q j, wi, вычисленные на основе наибольшей общей подстроки (1.12) или расстоянии Левенштейна (1.13), между всеми словами коллекции D и запросом Q .

–  –  –

В результате (таблица 2.4) речевые документы будут ранжированы по значению релевантности: документ 2, документ 3 и документ 1 .

Время вычисления оценок релевантности можно уменьшить сократив операции сравнения повторяющихся в коллекции слов со словами запроса пользователя посредством использования инвертированного списка .

Инвертированный список представляет множество всех слов в коллекции D с указанием для каждого слова его появление в документах, например, словопозиции в документах или индексы данных документов .

2.5 Векторная модель на основе приближённого сравнения слов В векторной модели информационного поиска документы и запросы представляются посредством векторов, а релевантность оценивается как близость между соответствующими векторами .

Пусть T ti представляет множество слов, которые встречаются в коллекции документов D. Каждому документу d k D сопоставляется вектор

–  –  –

где q j, ti – значение меры сходства между словами q j и ti, а - эмпирически подобранное пороговое значение .

Тогда, компоненты y i вектора запроса q показывают слова из множества T ti, которые сходны со словами запроса

–  –  –

На рисунке 2.7 показано формирование вектора запроса q y0, y1,..., y n и вектора весовых коэффициентов s s0, s1,...,sn на основе матрицы (2.15), где черными кругами показаны q j, ti, а серыми - q j, ti .

Рисунок 2.7 - Формирование векторов запроса и весовых коэффициентов Значение функции релевантности F d k, Q документа d k D запросу Q

–  –  –

Рассмотрим в качестве примера коллекцию из трех документов, приведнную в таблице 2.2 .

Множество T всех слов, встречающихся в коллекции, содержит 9 слов. В таблице 2.5 показаны tf-idf веса (1.1) слов множества T, где для вычисления значения idf использовался десятичный логарифм .

–  –  –

В соответствии с (2.17) вектор весовых коэффициентов косинусной меры (2.18) формируется на основе значений меры сходства q j, ti, превышающих или равных (таблица 2.6). Вектор весовых коэффициентов s вычисленных на основе длины наибольшей общей подстроки (1.12) равен

–  –  –

В результате (таблица 2.7) речевые документы будут ранжированы по значению релевантности как документ 2, документ 3 и документ 1 .

ГЛАВА 2. Разработка метода текстового поиска речевых документов Далее приведены показатели эффективности описанной векторной модели, полученные на основе экспериментальных исследований при использовании различных мер сходства слов .

В качестве коллекции документов используется коллекция comb_msu_ru_nsh, состоящая из 100 речевых фрагментов аудио книги, содержание которых распознано посредством CMU Pocketsphinx [100] с акустической и языковой моделями voxforge-ru-0.2. Более подробное описание коллекции речевых документов приведено в разделе 4.4. Поиск выполняется по 253 текстовым запросам набора comb_qs1, описание которого также представлено в разделе 4.4. Каждому запросу вручную сопоставлены релевантные документы, что представляет экспертную оценку, относительно которой определяется эффективность поиска .

В качестве базового метода для сравнения принят метод 1, основанный на традиционной векторной модели, использующей точное сравнение слов и косинусную меру (1.3) .

Эффективность описанной векторной модели поиска на основе взвешенной косинусной меры (2.18) оценивалась при использовании следующих мер сходства слов, используемых для вычисления весовых коэффициентов si : метод 2 – использует длину наибольшей общей подстроки (1.12); метод 3 – основан на расстоянии Левенштейна (1.14) .

В различных системах, включающих поиск по текстовым документам, широко распространено применение свободной библиотеки высокоскоростного полнотекстового поиска Lucene [101, 102]. Поэтому в качестве методов для сравнения, применяемых на практике, используются метод 4, представляющий точный поиск Lucene, и метод 5, реализующий приближнный поиск Lucene .

Эффективность поиска оценивалась посредством показателей R, P и F1, соответствующих полноте и точности поиска, а также F1 -мере. Описание вычислений показателей приведено в разделе 1.7 .

ГЛАВА 2. Разработка метода текстового поиска речевых документов Результаты поиска представлены в таблице 2 .

8. Запись « 0 » означает, что релевантными документами считались те, для которых оценка релевантности запросу rk (2.1) положительна. Запись « t N » означает, что релевантными считались документы имеющие ранг не более N .

–  –  –

Графики полноты/точности, построенные по полученным значениям, представлены на рисунке 2.8. Цифрами обозначены номера методов .

ГЛАВА 2. Разработка метода текстового поиска речевых документов Рисунок .

2.8.

- Графики полноты/точности исследуемых методов для коллекции comb_msu_ru_nsh (цифрами обозначены номера методов) Полученные результаты (таблицы 2.8, 2.9 и рисунок 2.8) позволяют сделать следующие выводы:

1) наилучшее качество поиска речевых документов по текстовому запросу показали методы 2 и 3, выполняющие приближенное сравнения слов и вычисление оценки релевантности посредством взвешенной косинусной меры (2.18);

2) наихудшее качество поиска из рассмотренных методов показали методы точного сравнения 1 и 4;

3) среднее качество поиска показал метод 5, выполняющий приближнный поиск, реализованный в библиотеке Lucene;

4) использование предложенной взвешенной косинусной меры (2.18) для вычисления оценки релевантности повышает показатель F1-меры до 14% относительно приближнного поиска, реализованного в библиотеке Lucene;

5) как видно из таблиц 2.8 и 2.9 при использовании векторной модели поиска на основе предложенной взвешенной косинусной меры (2.18) ложноопределенные системой релевантные документы реже попадают в верхние ГЛАВА 2. Разработка метода текстового поиска речевых документов ранги ранжированного результирующего списка по сравнению с традиционной векторной моделью и полнотекстовым поиском реализованном в Lucene .

–  –  –

Значение idft j является инвертированной частотой документа, которая также используется в векторной модели поиска, которая вычисляется с помощью выражения (1.2). Опираясь на теорию информации значение idft j можно интерпретировать как вероятность того, что случайно выбранный документ содержит слово t j .

Весовые коэффициенты вычисляются как

–  –  –

Вычислим значения меры сходства между всеми словами запроса «заметали следы» и документами коллекции на примере длины наибольшей общей подстроки. Результат представлен в таблице 2.11 .

ГЛАВА 2. Разработка метода текстового поиска речевых документов

–  –  –

В результате (таблица 2.13) речевые документы будут ранжированы по значению релевантности как документ 2, документ 3 и документ 1 .

ГЛАВА 2. Разработка метода текстового поиска речевых документов Далее приведены показатели эффективности описанной вероятностной модели в сравнении с векторной моделью, основанной на взвешенной косинусной мере (2 .

18). В качестве коллекций документов используются коллекция comb_msu_ru_nsh из 100 речевых фрагментов аудио книги и коллекция radio_news из 132 радио новостей. Содержание обеих коллекций распознано посредством CMU Pocketsphinx [100] с акустической и языковой моделями voxforge-ru-0.2. Описание коллекций приведено в разделе 4.4 .

Множество запросов для коллекции comb_msu_ru_nsh состоит из 253 запросов набора comb_qs2, а radio_news 61 запроса набора

- radio_news_qs, сформированных вручную. Каждому запросу вручную сопоставлены релевантные документы, что представляет экспертную оценку, относительно которой определяется эффективность поиска .

В качестве базового метода для сравнения принят метод 1, основанный на традиционной векторной модели, использующей точное совпадение слов и косинусную меру (1.3) .

С базовым методом сравнивались следующие методы поиска:

- метод 2, использующий взвешенную косинусную меру близости на основе длины наибольшей общей подстроки (1.14);

- метод 3 на основе функции Okapi BM25 и точного сравнения строк;

- метод 4 на основе функции Okapi BM25 и приближнном сравнении строк посредством нахождения длины наибольшей общей подстрок (1.14);

- метод 5 – приближенный поиск Lucene [102] .

Графики полноты/точности для каждой тестовой коллекции представлены на рисунках 2.9 и 2.10, соответственно .

ГЛАВА 2. Разработка метода текстового поиска речевых документов Рисунок 2 .

9 - График полноты/точности при поиске по коллекции comb_msu_ru_nsh (цифрами обозначены номера методов) Рисунок 2.10 - График полноты/точности при поиске по коллекции radio_news (цифрами обозначены номера методов) ГЛАВА 2. Разработка метода текстового поиска речевых документов Показатели полноты и точности поиска, полученные в результате эксперимента на двух коллекциях, показывают, что наиболее эффективными методами являются метод 2 и метод 4, основанные на взвешенных функциях оценки релевантности. Веса данных функций вычисляются посредством приближенного сравнения слов. Средним по показателям эффективности поиска является метод 5. Наименьшую эффективность показали метод 1 и метод 3, использующие функции оценки релевантности на основе точного сравнения слов .

Выводы

1. Предложена векторная модель информационного поиска речевых документов на основе взвешенной косинусной меры близости, позволяющая использовать нечеткое сравнение слов, некорректно распознанных в результате АРР .

2. Результаты экспериментального исследования векторной и вероятностной моделей на основе взвешенных функций релевантности показали повышение показателей полноты и точности по сравнению с методом приближнного поиска, реализованным в библиотеке Lucene. Выигрыш может достигать 7% .

3. Разработанные векторная и вероятностная модели поиска на основе взвешенных функций релевантности показали близкие показатели эффективности. Для последующих исследований выбрана векторная модель на основе взвешенной косинусной меры .

ГЛАВА 3. Разработка метода фонемного поиска речевых документов ГЛАВА 3 .

Разработка метода фонемного поиска речевых документов В главе исследуется возможность фонемного поиска речевых документов по текстовому запросу. Рассмотрены алгоритмы графемно-фонемного выравнивания и алгоритмы фонемного транскрибирования; описана мера сходства фонем, используемая при поиске; выполнено сравнение производительности предложенных алгоритмов фонемного транскрибирования .

В главе представлен анализ результатов экспериментального исследования влияния на эффективность поиска предлагаемого метода и разработанных алгоритмов на основе тестовой коллекции речевых документов и запросов в зависимости от типа ошибок распознавания .

3.1 Постановка задачи

–  –  –

Документы d k D ранжируются в порядке убывания значений rk, полученных относительно запроса Q .

ГЛАВА 3. Разработка метода фонемного поиска речевых документов Предложенная в главе 2 векторная модель поиска имеет функцию релевантности (2 .

18), использующую весовые коэффициенты si, вычисляемые на основе приближнного сравнения слов. Требуется разработать метод поиска и алгоритмы, позволяющие вычислять функцию релевантности на основе фонемного сходства слов речевых документов и запроса .

Поставленная задача включает следующие подзадачи:

графемно-фонемное выравнивание требуется для извлечения вероятностей появления графем (букв) и фонем из текста на естественном языке;

фонемное транскрибирование заключается в преобразовании слов, представленных последовательностью графем, в последовательность фонем, отражающих их произношение «в среднем»;

вычисление меры сходства фонем необходимо при сравнении слов речевых документов и запроса на основе фонемных транскрипций;

вычисление весовых коэффициентов si функции релевантности моделей поиска, предложенных в главе 2 .

Ниже рассмотрены данные подзадачи более подробно .

Опишем формальную постановку задачи фонемного транскрибирования .

Пусть задан алфавит фонем j и алфавит графем (букв) C ci .

Мощность фонемного алфавита равна N, а графемного алфавита – M. Пусть имеется обучающий словарь, содержащий слова, представленные в виде последовательностей графем, и их фонемные транскрипции .

Требуется для некоторого слова w, представленного последовательностью графем c 0 c1...c m, определить последовательность фонем 0 1...

n, которая отражает его произношение:

–  –  –

описываемых и предлагаемых алгоритмах транскрибирования, выполнена путм подсчета количества встречаемых фонем и графем в словах обучающего словаря. Оценка условных вероятностей P j | ci и Pci | j, также используемых в предложенных алгоритмах транскрибирования, обсуждается в разделе 3.3 .

Заметим, что верхний индекс при обозначении графемы или фонемы показывает позицию графемы в слове или фонемы в транскрипции, а нижний индекс – порядковый номер буквы или фонемы в алфавите C или, соответственно .

3.2 Фонемное транскрибирование Рассмотрим некоторые алгоритмы фонемного транскрибирования, использующие статистическую модель произношения слов. Первый алгоритм основан на построении дерева альтернатив. Второй – на оценке апостериорной вероятности состояний многосвязной цепи Маркова. Третий - использует математический аппарат скрытых марковских моделей (СММ) .

ГЛАВА 3. Разработка метода фонемного поиска речевых документов

–  –  –

С| j P(C | j ), где P(C | j ) – условная вероятность соответствия графем ci фонеме j в транскрипциях слов, оценка которой получена по обучающему словарю .

–  –  –

Тогда, в соответствии с критерием максимума апостериорной вероятности, результатом транскрибирования является последовательность фонем 0... n, для которой выполняется условие

–  –  –

Фонемную транскрипцию слова в соответствии с выражением (3.7) удобно находить путм построения дерева T (рисунок 3.2). Каждой вершине дерева T сопоставлена одна или несколько фонем алфавита. Вершины k-го уровня являются возможными вариантами транскрибирования k-ой графемы слова .

Каждому ребру приписывается метка q kj, значение которой вычисляется следующим образом:

–  –  –

Полный перебор всех возможных альтернатив в соответствии с выражением (3.7) часто затруднителен, т.к. требует значительных вычислительных затрат .

Рассмотрим алгоритм, позволяющий снизить требования к вычислительным ресурсам системы информационного поиска .

Дерево T является связным графом, который определяется кортежем V v kj – множество вершин (верхний индекс показывает уровень V, E, где вершины в дереве, а нижний индекс – порядковый номер фонемы в алфавите, сопоставляемой вершине); E – множество рбер, каждому из которых соответствует метка q kj, k 0...M. Ребро задается кортежем vtk 1, v kj, q kj, где vtk 1 – вершина-предок, v kj – вершина-потомок и q kj – метка ребра, значение которой вычисляется по выражению (3.8). Также введм указание на листовую вершину l дерева T с наибольшим значением метки q .

Алгоритм построения дерева T включает следующие шаги:

ГЛАВА 3. Разработка метода фонемного поиска речевых документов

–  –  –

3.2.3. Рекуррентный алгоритм фонемного транскрибирования Рассмотрим зависимость появления фонемы il, находящейся на l-й позиции в транскрипции слова, относительно предшествующей (l-k)-й фонемы lj k. В качестве характеристики статистической зависимости используем меру

–  –  –

при l k.. w, где w - длина транскрипции слова обучающего словаря .

На рисунке 3.3 приведена гистограмма значений меры (3.9) в зависимости от сдвига k .

ГЛАВА 3. Разработка метода фонемного поиска речевых документов Рисунок 3 .

3 - Условная вероятность появления наиболее вероятной фонемы на l-й позиции в транскрипции слова в зависимости от (l-k)-й предшествующей фонемы при l k.. w Результаты показывают, что статистическая зависимость между соседними фонемами убывает по экспоненциальному или близкому к нему закону. Тогда, опираясь на теорему Дуба, можно использовать математический аппарат теории многосвязных (сложных) конечных цепей Маркова [104-106] для формирования наиболее вероятной последовательности фонем транскрибируемого слова .

В общем случае фонема транскрипции зависит от конечного числа tпредыдущих фонем как показано на рисунке 3.4 .

–  –  –

Рисунок 3.5 – Многосвязная (сложная) конечная цепь Маркова Преобразуем многосвязную цепь Маркова с N скалярными состояниями в простую цепь Маркова с N t векторными состояниями [108], показанную на рисунке 3 .

6 .

Рисунок 3.6 – Простая цепь Маркова с векторными состояниями Для этого сформируем векторы состояний

–  –  –

ГЛАВА 3. Разработка метода фонемного поиска речевых документов где i, j, r, q 1, N .

Матрица вероятностей переходов между полученными векторными состояниями имеет вид:

–  –  –

ГЛАВА 3.

Разработка метода фонемного поиска речевых документов k 1 где f ij..r – логарифм функции правдоподобия векторного состояния ij..r :

–  –  –

Пусть последовательность фонем является простой цепью Маркова t 1 .

В этом случае векторные состояния тождественны фонемам, а логарифм апостериорной вероятности (3.19) равен

–  –  –

Если последовательность фонем является многосвязной (сложной) цепью Маркова связности t 2, то векторные состояния содержат две компоненты, соответствующие двум фонемам. Полагая, что функции правдоподобия P c k | k и P cik 1 | ik 1 соседних фонем независимы, имеем j j ГЛАВА 3. Разработка метода фонемного поиска речевых документов

–  –  –

ГЛАВА 3. Разработка метода фонемного поиска речевых документов 3 .

2.4 Алгоритм фонемного транскрибирования на основе скрытой марковской модели Для решения задачи фонемного транскрибирования можно также использовать математический аппарат скрытых марковских моделей (СММ, Hidden Markov Model, HMM) [108]. Зависимости между графемами и фонемами можно представить графической моделью (рисунок 3.8) .

Рисунок 3.8 - Графическая модель СММ для фонемного транскрибирования

Здесь наблюдениями являются последовательности графем слова, а скрытыми состояниями – фонемы транскрипции слова .

СММ задается количеством возможных наблюдений M, количеством скрытых состояний N, а также вероятностными мерами, и [108] .

Матрица задат условные вероятностей Pi | j. Мера bk содержит векторы вероятностей появления наблюдений при конкретном состоянии bk Pck | j. Мера задает начальное распределение вероятностей состояний P i .

Начальные параметры СММ могут быть получены при предварительной обработке обучающего словаря. Так, скрытые состояния СММ формируются фонемами алфавита, а наблюдения – графемами алфавита C ; оценки априорных вероятностей состояний вычисляются как частоты появления фонем в транскрипциях слов обучающего словаря ; элементы матрицы соответствуют вероятностям переходов Pik | k 1 между фонемами в словах j словаря и вычисляются через частоты появления последовательностей ГЛАВА 3. Разработка метода фонемного поиска речевых документов фонем k 1 ik. Элементы матрицы определяются условными вероятностями j Pck | j .

Обучение СММ происходит «без учителя» по алгоритму Баума-Велша .

3.3 Оценка вероятностей фонем Оценить условные вероятности P j | ci можно по множеству пар сопоставленных фонем и графем j, ci, полученных по обучающему словарю

–  –  –

Предлагается два алгоритма графемно-фонемного выравнивания. Первый алгоритм использует правила, основанные на последовательном сопоставлении гласных графем с гласными фонемами и согласных графем с согласными фонемами. Для уточнения сопоставления графем и фонем используется модифицированный алгоритм DTW .

Рассмотрим каждый из этапов более подробно .

–  –  –

Таблица 3.1 .

Примеры транскрипций обучающего словаря Буквенное представление слова Фонемная транскрипция слова библиотека [bb] [i] [b] [ll] [i] [a] [tt] [je] [k] [ay] благодарить [b] [l] [ay] [g] [ay] [d] [a] [rr] [ii] [tt] ГЛАВА 3. Разработка метода фонемного поиска речевых документов

–  –  –

Буквы (графемы) русского алфавита также можно разделить на гласные и согласные. Дополнительно существуют буквы, являющиеся нейтральными по звучанию (см. Таблицу 3.3) .

–  –  –

Произношение гласных букв отражается гласными фонемами, согласных букв – согласными фонемами. Окружение буквы в слове влияет на е произношение. Произношение гласных звуков может уточняться.

Например:

ударный, безударный, смягчающий звуки. Произношение согласного звука может быть тврдыми, мягким, шипящим, свистящим, звонким, глухим и т.д .

Формируя правила графемно-фонемного выравнивания, основанные на чтении букв в зависимости от окружения в слове, необходимо учитывать и правила получения транскрипции, по которой выполняется сопоставление. В противном случае необходимо предусматривать исключения в правилах сопоставления ГЛАВА 3. Разработка метода фонемного поиска речевых документов букв слова с фонемами его транскрипции. Вариантов фонемной транскрипции слова может быть несколько, тогда как буквенное представление слова – одно .

Но, поскольку формирование обучающего словаря не ограничивается определенным транскриптором, необходимы правила сопоставления, использующие сами слова и их транскрипции. Например, более общие правила, которые учитывают только тип буквы и фонемы, а также позиции буквы в слове и фонемы в его транскрипции. Такие правила основаны на предположении, что порядок следования согласных и гласных букв в слове сохраняется и в его фонемной транскрипции .

Буквенное представление слова w является последовательностью букв wC c 0,...,c m, где ci C. Фонемная транскрипция слова w представляет последовательность фонем w 0,..., n, где j. Введем индексы k и t, указывающие позиции элементов в соответствующих последовательностях .

Обозначим k-й элемент последовательности wC как c[k ], а t-й элемент последовательности w как [t ] .

Одновременно просматривая поэлементно обе последовательности wC и w, будем изменять индексы k и t, а также устанавливать границу в виде символа «|» между соседними фонемами и буквами в зависимости от типов [t ] .

текущих графем и фонемы Полученные в результате c[k ] последовательности определим как «выровненные». Примеры выровненных последовательностей представлены в таблице 3.4 .

–  –  –

Каждый блок содержит правила построения выровненных последовательностей, определяемые возможными значениями типов текущих буквы c[k ] и фонемы [t ]. Кроме текущих значений правила также учитывают следующие буквы c[k 1] и фонемы [t 1] .

–  –  –

Символы «|» выровненных последовательностей 1wC и 1w разделяют буквы и фонемы на группы внутри данных последовательностей. Таким образом, графемы (буквы) и фонемы, принадлежащие группам на одной позиции в обеих последовательностях, сопоставляются между собой .

–  –  –

Одним из широко используемых алгоритмов, сопоставляющих элементы двух произвольных числовых последовательностей, является алгоритм DTW (Dynamic Time Wrapping – DTW) [27]. Данный алгоритм относится к алгоритмам динамического программирования и позволяет найти соответствие между двумя временными рядами, элементы которых принадлежат одному алфавиту. В случае графемно-фонемного выравнивания сопоставление выполняется между последовательностью фонем w 0,..., n, где k, и

–  –  –

vmax – допустимое максимальное значение, d ( t, ck ) – значение функции расстояния (меры отличия) между t-ой фонемой последовательности w и k-ой графемой последовательности wC .

Функция расстояния между фонемой и графемой задана следующим образом:

–  –  –

Штрафное значение введено для обработки двух случаев:

– согласная фонема «j» сопоставляется с гласными буквами,

– суффикс «-ться» транскрибируется как «c ay» .

Примеры подобных слов приведены в таблице 3.6 .

–  –  –

min N, M L N M .

Сопоставление графем и фонем выполняется по найденному пути трансформации. Каждой графеме ci wC сопоставляется одна или несколько

–  –  –

Рисунок 3.10 .

– Пример графемно-фонемного выравнивания слова «агентство»

на основе алгоритма DTW .

Примеры выровненных последовательностей, полученных на основе описанного выше алгоритма, приведены в таблице 3.7 .

ГЛАВА 3. Разработка метода фонемного поиска речевых документов

–  –  –

В результате выравнивания описанным алгоритмом одной графеме могут соответствовать от одной до нескольких фонем .

3.3.3 Расширение алфавита фонем и подсчет условных вероятностей Так как произношение буквы в некоторых словах характеризуется несколькими фонемами, после завершения процедуры выравнивания необходимо выполнить расширение алфавита фонем. Кроме того, некоторые слова содержат буквы, которые не произносятся. Например, слово «явиться», в котором буква «я» характеризуется двумя фонемами [j] и [i], а буквы «тьс» только одной [с], или слово «агентство», в котором первая «т» не произносится .

Последовательности букв и фонем слова «явиться» приведны на рисунке 3.11 .

Рисунок 3.11 - Соответствие букв и фонем в слове «явиться»

В случае сопоставления одной буквы с несколькими фонемами в алфавит фонем добавляется новая фонема, представляющая комбинацию сопоставленных фонем, например, как в слове «явиться» после графемноГЛАВА 3. Разработка метода фонемного поиска речевых документов фонемного выравнивания образуется новая фонема [j_i]. Когда буква не произносится, то ей сопоставляются фонемы соседних букв, например [n_s] как в слове «агентство». Пример выровненной графемно-фонемной последовательности слова «явиться» показан на рисунке 3.12 .

Рисунок 3.12 - Выровненная графемно-фонемная последовательность слова «явиться»

Таким образом, в результате графемно-фонемного выравнивания на основе алгоритма DTW и расширения алфавита фонем формируются выровненные последовательности букв 2 wC и фонем 2 w, в которых одна графема (буква) соотносится с одной фонемой .

Полученные выровненные последовательности позволяют сформировать множество графонов G g v, в котором графоны представляют пару из одной

–  –  –

появления j и k фонем в соседних парах .

Оценивание вероятностей графем и фонем по конечному множеству слов обучающего словаря приводит к наличию нулевых вероятностей в случаях, которые не отображены в словаре. Поэтому выполняется сглаживание посредством присваивания некоторого значения, меньшего возможного минимального значения вероятности, и последующего нормирования значений .

3.4 Меры сходства фонем Фонема описывается условным распределением С| j P(C | j ). Мера сходства между фонемами j и k основана на сравнении соответствующих распределений. Например, мера сходства фонем может быть вычислена посредством евклидова расстояния

–  –  –

Значения меры сходства (3.33) фонемы «a» с другими фонемами алфавита показаны на рисунке 3.13 .

ГЛАВА 3. Разработка метода фонемного поиска речевых документов

–  –  –

Значения меры сходства (3.36) фонемы «a» с другими фонемами алфавита показаны на рисунке 3.14 .

ГЛАВА 3. Разработка метода фонемного поиска речевых документов Рисунок 3 .

14 - Значения меры сходства (3.36) фонемы «a»

«Расстояние» Кульбака-Лейблера показывает информационное расхождение между вероятностными распределениями, тогда как евклидово расстояние связано с понятием геометрической близости. В результате в качестве меры сходства фонем выбрана мера на основе «расстояния»

Кульбака-Лейблера, определяемая выражением (3.36) .

–  –  –

где n и m – длины последовательностей фонем слов w1 и w2, соответственно .

Элемент a i, j матрицы A вычисляется как ГЛАВА 3. Разработка метода фонемного поиска речевых документов

–  –  –

Длина наибольшей общей подстроки, определяемая (3.38), слов {s, a, m, a, l, ae, t, a} и {s, ay, m, a, ll, ae, t} равна 6,91 .

Приведнный алгоритм учитывает сходство слов на основе их «произношения», используя соответствующие фонемные представления .

Сравнение слов по фонемным последовательностям может выполняться с учтом возможных искажений в графемном (буквенном) представлении, вызванных удалением или вставкой графем .

ГЛАВА 3. Разработка метода фонемного поиска речевых документов Введм ограничение, что в слове не происходят две подряд стоящих ошибок вставки или удаления, то есть при вычислении ai, j будем учитывать

–  –  –

представлены на рисунке 3.16 .

Рисунок 3.16 – Матрица A для «s a m a l ae t a» и «s ay m a ll ae t» (3 .

39) ГЛАВА 3. Разработка метода фонемного поиска речевых документов Длина наибольшей общей подстроки, определяемая (3.39), слов {s, m, a, l, ae, t, a} и {s, ay, m, a, ll, ae, t} равна 5,98, тогда как при вычислении по формуле (3.38) данное значение равно 4,98 .

3.6 Производительность алгоритмов фонемного транскрибирования Предложенные в разделе 3.2 алгоритмы фонемного транскрибирования и описанный алгоритм на основе СММ включают этап обучения по словарю .

Обучение алгоритмов транскрибирования на основе построения дерева альтернатив, а также простой и сложной цепей Маркова рассмотрено в разделе

3.3. Процесс обучения включает извлечение условных вероятностей фонем, используя графемно-фонемное выравнивание слов и их транскрипций словаря. СММ обучается посредством алгоритма Баума-Велша по словарю без графемно-фонемного выравнивания .

Сравним производительность приведнных алгоритмов фонемного транскрибирования. Замеры времени работы алгоритмов фонемного транскрибирования проводились на одном компьютере с ОС Windows 8.1 и мобильным процессором Алгоритмы 2-ядерным Core-i5, 1.8GHz .

транскрибирования на основе построения дерева альтернатив, а также простой и сложной цепей Маркова написаны самостоятельно на языке программирования C#. Алгоритм на основе СММ реализован на основе сторонней библиотеки Accord.NET [110], написанной на языке программирования C# .

В таблице 3.8 приведено среднее время, затрачиваемое на предобработку словаря, обучение СММ и транскрибирование слов в зависимости от количества букв. Во втором столбце таблицы 3.9 приведены длины слов, транскрибирование которых выполнялось в эксперименте, а в скобках указано количество данных слов. Описание характеристик обучающего словаря и тестовой коллекции приведено в главе 4.

Столбцы соответствуют следующим алгоритмам транскрибирования:

ГЛАВА 3. Разработка метода фонемного поиска речевых документов TREE - алгоритм на основе построения дерева альтернатив, Mark1 - рекуррентный алгоритм на основе простой цепи Маркова t 1, Mark2 - рекуррентный алгоритм на основе сложной цепи Маркова t 2, HMM - алгоритм на основе СММ .

Алгоритм на основе сложной цепи Маркова определяет фонемную транскрипцию слова в соответствии с формулой (3.21). Вычисление произведения апостериорной вероятности на вероятность перехода между фонемами организовано посредством цикла Parallel.For() .

–  –  –

Таким образом, предлагаемые алгоритмы TREE, Mark1 и Mark2 являются менее затратными на этапе обучения в 166 и 70 раз по сравнению с алгоритмом на основе СММ, но проигрывают по времени транскрибирования в 150, 42 и 104 раза, соответственно. Однако часть вычислений алгоритма на основе сложной цепи Маркова возможно выполнить параллельно, что позволяет уменьшить время транскрибирования слов .

3.7 Анализ эффективности фонемного поиска В разделе представлены результаты экспериментов поиска по тестовым коллекциям речевых документов радио новостей распознанных посредством CMU Pocketsphinx [100] или Yandex SpeechKit [111] и различным наборам запросов, описание характеристик которых приведено в разделе 4.4. В качестве современного метода поиска речевой информации, относительно которого ГЛАВА 3. Разработка метода фонемного поиска речевых документов выполняется сравнение предложенного метода, выступает метод, реализованный в системе от компании «Центр речевых VoiceDigger технологий» [91] .

Исследуемые в экспериментах модели поиска можно разделить на три группы: модель, используемая в системе VoiceDigger, модели на базе поискового движка Lucene [102] и векторная модель на основе взвешенной косинусной меры с различными способами сравнения слов, (2.18) рассмотренные в главах 2 и 3. Используемые названия моделей, методов поиска и их краткое описание представлены в таблице 3.9 .

–  –  –

Тестовая речевая коллекция radio_news состоит из 132 аудио файлов радио новостей. Содержание коллекции распознано посредством библиотеки CMU Pocketsphinx [100] с акустической и языковой моделями cmusphinx_ru-5.2 [112], а также сервисом Yandex SpeechKit [111], используя пометку темы notes в запросе на распознавание. В результате сформированы две тестовые коллекции речевых документов: cmusphinx_ru и ya-notes, используемых при поиске посредством моделей на основе Lucene и векторной модели на основе взвешенной косинусной меры .

Основной набор запросов qs_1w включает 2796 запросов, состоящих из одного слова. Описание формирование наборов запросов и экспертных оценок релевантности документов приведено в разделе 4.4 .

В таблице 3.10 приведены значения макроусредннной средней точности MAP для поиска по набору запросов qs_1w .

–  –  –

Поиск на основе векторной модели с взвешенной косинусной мерой и сервиса распознавания речи Yandex SpeechKit показывает наилучшие ГЛАВА 3. Разработка метода фонемного поиска речевых документов результаты. Yandex SpeechKit является веб-сервисом, предоставляющим доступ к распознаванию аудио файлов на серверах компании Яндекс по протоколу HTTP. Используемая в экспериментах, языковая модель распознавания в Yandex SpeechKit определяется параметром topic равным notes, что соответствует модели для распознавания текстов при свободной диктовке .

Точность распознавания русской речи сервисом Yandex SpeechKit в среднем составляет 80-90%, в то время как CMU Pocketsphinx при использовании моделей cmusphinx_ru-5.2 - 40-80% .

Однако сервис Yandex SpeechKit в условиях сильных акустических помех может вернуть распознанный текст с пропущенными словами. В результате из содержания речевого документа, по которому выполняется поиск, исключаются длинные последовательности слов, что приводит к снижению эффективности поиска .

Рассмотрим пример. С сайта первого канала [116] взят репортаж длительностью около 4 минут. Аудио файл содержит речь нескольких дикторов, а также запись речи в различных условиях .

Аудио файл разделн на четыре части и сформирована коллекция речевых документов 1tv_test. Точность распознавания каждого документа приведена в таблице 3.11 .

–  –  –

Точность распознавания CMU Pocketsphinx ниже по сравнению с Yandex SpeechKit, но в первом случае ошибки распознавания связаны с заменой слов, а во втором - удалением слов .

ГЛАВА 3. Разработка метода фонемного поиска речевых документов По распознанному Yandex SpeechKit содержанию речевых документов создан набор запросов qs_1tv_ya_err4 из 68 «трудных» слов, которые встречаются в документах один раз и не распознаны сервисом .

Точность распознавания определялась посредством скрипта word_align.pl [100] .

Результаты точности поиска по коллекции 1tv_test приведены в таблице 3.12 .

–  –  –

Результаты показывают достижение наилучшей средней точности поиска при использовании библиотеки CMU Pocketsphinx и разработанной модели фонемного поиска по сравнению с АРР на основе сервиса YandexSpeechKit и исследуемыми моделями поиска .

Рассмотрим эффективность поиска методов относительно типов ошибок распознавания. Запросы набора qs_1w разбиты на группы по типу ошибок распознавания CMU Pocketsphinx, в результате получились следующие наборы запросов: qs_1w_err0 (слова без ошибок), qs_1w_err1 (слова с ошибкой замены слов), qs_1w_err2 (слова с ошибкой изменения приставки или окончания слов), qs_1w_err3 (слова с ошибками разбиения или слияния слов), qs_1w_err4 (нераспознанные слова) .

Результаты поиска по данным наборам запросов для типов ошибок err0, err1 и err2 представлены в таблице 3.13 .

–  –  –

Запросы данных наборов состоят из единичных слов. Сгруппировав запросы по одинаковым релевантным документам коллекции, получены новые соответствующие наборы запросов: qs_err0, qs_err1, qs_err2, qs_err3, qs_err4 .

Характеристики наборов запросов представлены в разделе 4.4 .

Результаты поиска по многословным запросам для типов ошибок err0, err1 и err2 представлены в таблице 3.14 .

–  –  –

ГЛАВА 3. Разработка метода фонемного поиска речевых документов Результаты, представленные в таблицах 3 .

13 и 3.14, показывают, что предлагаемые алгоритмы транскрибирования на основе цепи Маркова позволяют существенно повысить точность поиска при замене слов в результате АРР .

Для улучшения показателей эффективности информационного поиска речевых документов предлагается объединять ранжированные списки документов, полученные от двух моделей поиска. В случае дублирования документов в обоих списках, выбирать наибольшее значение оценки релевантности из двух полученных .

Рассмотрим пример объединения двух ранжированных списков релевантных документов .

Первая модель вернула следующий список документов:

документ с номером 044 с оценкой релевантности 0,7;

документ с номером 086 с оценкой релевантности 0,7;

а вторая модель вернула ранжированный список релевантных документов:

документ с номером 086 с оценкой релевантности 1;

документ с номером 101 с оценкой релевантности 0,6;

Тогда объединнный список релевантных документов будет следующим:

документ с номером 086 с оценкой релевантности 1;

документ с номером 044 с оценкой релевантности 0,7;

документ с номером 101 с оценкой релевантности 0,6;

Результаты поиска по коллекции радио новостей, распознанной посредством CMU Pocketsphinx, по набору запросов qs_1w приведены в таблице 3.15 .

–  –  –

ГЛАВА 3. Разработка метода фонемного поиска речевых документов Объединение моделей на основе текстового и фонемного поиска показывают повышение точности поиска .

Выводы

1. Предложена модель информационного поиска, использующая фонемное представление содержания речевых документов и запросов, а также функцию релевантности на основе нечеткого сравнения слов по произношению .

2. Предложен метод фонемного поиска речевых документов по текстовому запросу пользователя. В методе используется вероятностное описание фонем в отличие от классического описания фонемы как набора значимых акустических признаков. Такое представление, в частности, позволяет определять сходство фонем посредством расстояния Кульбака-Лейблера .

3. Разработан алгоритм фонемного транскрибирования на основе «дерева альтернатив» фонемных транскрипций слова, позволяющий формировать фонемную транскрипцию слова на основе критерия максимума апостериорной вероятности .

4. Разработан алгоритм фонемного транскрибирования на основе математического аппарата многосвязных дискретных цепей Маркова .

Алгоритм позволяет повысить среднюю точность map@K поиска речевых документов на [1-15]% относительно алгоритма фонемного транскрибирования на основе скрытых марковских моделей (СММ) при искажении и замене слов в результате распознавания .

5. Разработан алгоритм графемно-фонемного выравнивания на основе правил чередования главных-согласных в словах и соответствующих им фонемных транскрипциях. Для уточнения оценок вероятностных характеристик фонем применяется алгоритм динамической трансформации временной шкалы (Dynamic Time Warping - DTW) .

6. Разработан расширенный алгоритм нахождения наибольшей общей подстроки, адаптированный для использования в фонемных методах поиска .

ГЛАВА 3. Разработка метода фонемного поиска речевых документов

7. Экспериментальные исследования на тестовой коллекции показали повышение средней точности поиска при использовании map@K приближнного сравнения слов по фонемным транскрипциям на основе 2связной цепи Маркова относительно приближенного поиска, реализованного в сторонней библиотеке Lucene, в среднем на 4% и системы поиска ключевых слов речевых документов VoiceDigger - на 0,5% .

ГЛАВА 4. Реализация программной модели ГЛАВА 4 .

Реализация программной модели В данной главе описывается архитектура разработанной в ходе исследований системы поиска речевых документов. Дополнительно описывается состав коллекции речевых документов, наборов запросов и обучающего словаря, а также используемые инструменты оценивания качества распознавания, создания фонемного словаря и наборов запросов .

4.1 Архитектура программной модели

Основными этапами поиска речевых документов, как отмечалось в главе 1, являются распознавание, индексирование содержания речевых документов, индексирование запроса и оценивание релевантности каждого документа коллекции запросу .

Архитектура разработанной системы включает три модуля. Первый модуль позволяет оценить вероятности появления графем и фонем в словах языка на основе обучающего словаря. Данные вероятности используются алгоритмами фонемного транскрибирования и при сравнении слов по фонемным транскрипциям. Второй модуль выполняет индексирование содержания речевых документов и построение векторов документов. Третий модуль вычисляет векторы запросов и весовых коэффициентов, а также реализует оценивание релевантности между документами коллекции и запросом пользователя посредством модели поиска .

Схема взаимодействия основных компонентов представлена на рисунке 4.1. Прямоугольниками с пунктирной линией обозначены объекты данных, например, распознанный речевой документ, условные распределения вероятностей, текстовый запрос. Прямоугольники со сплошной линией являются обработчиками данных, например, фонемный транскриптор, счтчик tf-idf весов слов .

ГЛАВА 4. Реализация программной модели Рисунок 4 .

1 – Архитектура системы поиска речевых документов .

После запуска системы выполняется первый модуль, затем формируется коллекция документов, а также возможно добавление в коллекцию нового документа с речевым содержанием, и происходит поиск по введнному пользователем текстовому запросу .

Добавление нового речевого документа в коллекцию для поиска сопровождается распознаванием его содержания, в соответствии с установленной моделью поиска. Распознанное содержание документа в текстовом формате помещается в специализированную папку файловой ГЛАВА 4. Реализация программной модели системы (хранилище), соответствующую коллекции, по которой выполняется поиск .

По запросу пользователя в системе выполняется поиск по содержанию проиндексированных речевых документов коллекции хранилища. Оценка релевантности документа запросу вычисляется посредством алгоритма, определяемого моделью поиска .

Последовательность действий инициализации, обработки и поиска документов с речевым содержанием по запросу представлена на рисунке 4.2 .

Рисунок 4.2 – Блок-схема системы поиска речевых документов .

Разработанная система имеет клиент-серверную архитектуру. Система состоит из пользовательского интерфейса и набора библиотек классов, содержащих структуры данных и методы обработки, индексирования и поиска ГЛАВА 4. Реализация программной модели документов с речевым содержанием. Библиотеки распознавания и поиска представляют обертки (wrappers) необходимые для взаимодействия системы со сторонними библиотеками распознавания (CMU Pocketsphinx, YandexSpeechKit) и поиска (Lucene). Архитектура классов разработанной системы показана на рисунке 4.3 .

Рисунок 4.3 – Основные компоненты системы поиска речевых документов .

На рисунке 4.3 модуль UI содержит классы, реализующие пользовательский интерфейс. Краткая характеристика пользовательского интерфейса приведена в разделе 4.2.4 .

4.2 Основные компоненты системы Архитектура системы разработана с учетом объектно-ориентированного подхода на языке C# с использованием.Net Framework 4.0. В разделе представлено описание основных компонентов разработанной системы поиска документов с речевым содержанием по текстовому запросу. Каждый из компонентов представляет библиотеку классов .

ГЛАВА 4. Реализация программной модели

4.2.1 Классы моделей Библиотека поиска содержит классы моделей поиска речевых документов .

Классы моделей поиска делятся на модели, основанные на текстовом и фонемном представлении речевых документов и запросов. Выделены модели булевы, векторные и вероятностные модели. Отдельно можно выделить класс LuceneWrapper, являющийся оберткой для обращения к свободной библиотеке высокоскоростного полнотекстового поиска Lucene [102] .

Класс BaseBoolean() реализует базовую булеву модель поиска на основе определения точного вхождения слов запроса в содержание речевого документа. Классы Substring() и Levenshtein(), наследуемые от класса BaseBoolean, реализуют булеву модель поиска, в которой используются алгоритмы приближенного сравнения строк для определения вхождения слов запроса в содержание речевых документов. Классы PhonemeSubstring() и PhonemeLevenshtein(), наследуемые от класса BaseBoolean, реализуют булеву модель поиска, в которой содержание речевых документов представлено в виде последовательности фонем. Определение вхождения слов запроса в содержание речевых документов вычисляется на основе вещественной меры сходства фонем. Аналогично классы BaseVSM(), Substring(), Levenstein(), PhonemeSubstring() и PhonemeLevenstein(), наследуемые от класса BaseVSM, реализуют различные варианты векторной модели поиска. Аналогично с классами вероятностной модели поиска .

В системе реализованы различные классы моделей поиска с использованием наследования. Классы моделей поиска являются наследуемыми от базового класса, в который реализует вычисление функции релевантности и сравнение слов на основе точного сравнения строк. Тогда как наследуемые классы моделей переопределяют методы сравнения и равенства слов, используя соответствующее приближнное сравнение. На рисунке 4.4 .

показан пример диаграммы, отражающей отношения базового класса и классов потомков .

ГЛАВА 4. Реализация программной модели Рисунок 4 .

4 – Диаграмма классов для векторных моделей .

Классы моделей поиска для обработки речевых документов и запросов используют библиотеки распознавания, индексирования, транскрибирования и поиска .

4.2.2 Распознавание Библиотека распознавания реализует классы оберток для взаимодействия со сторонними модулями распознавания. В исследовании используются следующие модули распознавания:

- библиотека CMU Pocketsphinx [100],

- сервис YandexSpeechKit [111] .

Библиотека CMU Pocketsphinx написана на языке C и реализует различные типы распознавания:

- распознавание ключевых слов в речи и игнорирование других фраз;

ГЛАВА 4. Реализация программной модели

- распознавание речи в соответствии с JSGF-грамматикой. В отличие от распознавания ключевых слов, фразы не подходящие под указанную грамматику не игнорируются;

- распознавание слитной речи на естественном языке, использующее языковую модель;

- фонемное распознавание, использующее фонемную модель .

Сервис YandexSpeechKit предоставляет возможность распознавания речевых документов на серверах компании Яндекс посредством выполнения HTTP-запроса .

–  –  –

фонема. В данной библиотеке реализованы алгоритмы графемно-фонемного выравнивания на основе правил и DTW, описанных разделе 3.3. Данные алгоритмы позволяют находить соответствие между графемами и фонемами слов русского языка. Затем подсчитываются частоты встречаемости графем и фонем, на основе которой определяются описанные выше вероятности .

Буквенное и фонемное представление слов взяты из словаря акустической и языковой моделей zero_ru [112], используемых в системах распознавания речи русского языка, или получены посредством использования фонемного транскриптора [113] на основе правил чтения слов русского языка. Обучающий словарь слов и транскрипций указывается в настройках системы .

4.2.4 Клиентская сторона системы поиска Архитектура системы включает независимый от логики приложения графический интерфейс. Архитектура поддерживает несколько версий сборок системы: локальная (десктопная) и распределнная (веб-сервис) .

ГЛАВА 4. Реализация программной модели В локальной версии системы графический интерфейс состоит из двух WinForms компонентов .

Первый компонент позволяет добавлять речевые документы в коллекцию для поиска, а второй компонент предоставляет функцию поиска .

Распределнная версия системы представляет веб-сервис, который реализован посредством Windows Communication Foundation (WCF). В этом случае система поиска речевых документов является кроссплатформенной .

Взаимодействие компонентов распределнной системы показано на рисунке 4.5 .

Рисунок 4.5 – Взаимодействие компонентов WCF-сервиса Разработанные библиотеки классов могут быть использованы также в стороннем приложении .

4.3 Обучающий словарь Условные вероятности графем и фонем, используемые для алгоритмов фонемного транскрибирования, оцениваются по обучающему словарю (глава 3). Словарь содержит слова с фонемными транскрипциями. Ограничения на формирование словаря не накладываются. Содержание словаря влияет на точность фонемного транскрибирования посредством алгоритмов, ГЛАВА 4. Реализация программной модели предложенных в главе 3. В качестве критерия выбора обучающего словаря выбрана близость распределения частот графем слов словаря к распределению частот графем слов русского языка [114]. Значения частот графем слов русского языка представлены на рисунке 4.6 .

Рисунок 4.6 - Список графем русского алфавита отсортированный по убыванию частоты появления в словах Часть экспериментов сравнения фонемных моделей поиска проводилась при использовании обучающего словаря, сформированного на основе «Нового частотного словаря» [115] и фонемного транскриптора [113], использующего правила чтения слов русского языка .

Распределение частот графем данного обучающего словаря приведено на рисунке 4.7 .

Рисунок 4.7 – Частоты графем слов обучающего словаря на основе «Нового частотного словаря» [115] Второй используемый словарь составлен из 10177 слов на основе текстов произносимой речи 100 репортажей различных случайно выбранных новостных выпусков первого канала [116], вышедших осенью 2017 года, и фонемного ГЛАВА 4 .

Реализация программной модели транскриптора [113]. Распределение частот графем слов второго обучающего словаря ближе к распределению частот графем слов для русского языка, по сравнению с первым обучающим словарем, и приведено на рисунке 4.8 .

Рисунок 4.8 – Частоты графем слов обучающего словаря на основе новостных выпусков первого канала [116] Условные вероятности графем и фонем оцениваются по выровненным буквенным и фонемным представлениям слов обучающего словаря описанным в разделе 3 .

5 способом. Примеры полученных вероятностей для фонемы «kk»

приведены на рисунках 4.9-4.10 .

Рисунок 4.9 - Распределение графем фонемы «kk» полученное по обучающему словарю на основе «Нового частотного словаря» [115] ГЛАВА 4. Реализация программной модели Рисунок 4 .

10 - Распределение графем фонемы «kk» полученное по обучающему словарю на основе новостных выпусков первого канала [116] Полученные вероятности кроме фонемного транскрибирования используются при вычислении меры сходства фонем необходимой при сравнении слов по фонемным транскрипциям .

4.4 Разработка тестовой коллекции Тестовая коллекция документов включает аудио файлы с речевым содержанием и текстовые файлы с правильно распознанным речевым содержанием .

Набор запросов представляет последовательности запросных слов и указаний релевантных документов коллекции, полученных по экспертной оценке. Запросы и экспертные оценки релевантности документов коллекции получены по текстам, соответствующим произносимой речи в документах коллекции .

Первая коллекция документов comb_msu_ru_nsh сформирована на основе коллекции фрагментов аудиокниги msu_ru_nsh из проекта синтеза речи FestLang [117]. Коллекция речевых фрагментов msu_ru_nsh содержит 620 аудио файла, средняя длительность которых составляет около 10 секунд. Общая продолжительность коллекции равна 1 час 39 минут и 30 секунд. Тестовая коллекция comb_msu_ru_nsh включает 100 аудио файлов, каждый из которых является объединением 10-ти случайно выбранных файлов из коллекции ГЛАВА 4. Реализация программной модели msu_ru_nsh. Средняя продолжительность аудио коллекции comb_msu_ru_nsh составляет около 3 минут .

Вторая коллекция radio_news - 132 записи новостей радио «Маяк» [118] .

Общая продолжительность аудио составляет 1 час 12 минут и 29 секунд .

Длительность речевых документов коллекции представлена на рисунке 4.11 .

Рисунок 4.11 - Длительность аудио файлов коллекции radio_news

В тестовую коллекцию документов входят также текстовые файлы, содержащие произнеснную речь в аудио файлах. Общее количество слов произнеснного текста коллекции radio_news составляет 4476 слов .

Минимальное количество слов произносимое в речевом документе равно 17, а максимальное - 141. Распределение речевых документов по количеству содержащихся произносимых слов показано на рисунке 4.12 .

ГЛАВА 4. Реализация программной модели

–  –  –

Оценивание точности распознавания выполнялось посредством скрипта выравнивания текстовых последовательностей, который относится к вспомогательным инструментам библиотек распознавания речи проекта CMU [100]. Скрипт сравнивает две текстовые последовательности по словам и вычисляет процент точности. Стоит отметить, что точность распознавания Yandex SpeechKit выше, чем указано в таблице 4.1, так как данный сервис возвращает распознанные числа и английские названия в виде цифр и ГЛАВА 4. Реализация программной модели английских слов. Тогда как слова правильно распознанных текстовые последовательностей записаны буквами русского алфавита .

Тестовые наборы запросов comb_qs1 и comb_qs2 сформированы вручную .

Тестовые наборы запросов для коллекции radio_news были сформированы в полуавтоматическом режиме с учетом типа ошибок распознавания слов .

Используя утилиту анализа текстовых корпусов AntConc [119], были выделены слова произносимые в коллекции речевых документов radio_news один раз .

Общее количество таких слов составило 2796. Каждому запросу, состоящему одному из выделенных слов, является релевантным один речевой документ коллекции. Данные запросы сформировали основной тестовый набор qs_1w .

Суффикс _1w в названии тестового наборы запросов обозначает, что запрос состоит из одного слова. Отсутствие данного суффикса показывает, что запрос состоит из нескольких слов, входящих в множество выделенных слов, сгруппированных по документам, в которых слова встречаются. Также используя скрипт выравнивания текстовых последовательностей [100], утилиту сравнения текстовых последовательностей по позициям слов и ручную обработку, выделенные слова были классифицированы по типам ошибок распознавания.

Слова была разделены на четыре следующие четыре группы:

err1 - слова распознанные с ошибкой замены слова, err2 - слова распознанные с ошибкой искажения слова (изменение приставки, суффикса или окончания), err3 - слова распознанные с ошибкой разбиения или слияния слов, err4 - нераспознанные слова .

Примеры слов различных типов приведены в таблице 4.2 .

–  –  –

Коллекции распознанных речевых документов и наборов запросов хранятся в виде текстовых файлов .

Выводы

1. Разработана программная модель системы поиска речевых документов, включающая структуры данных и алгоритмы, которые реализуют предложенные в ходе диссертационного исследования модели и методы .

2. Разработанная система поиска речевых документов обладает расширяемой архитектурой, что позволяет использовать е в различных предметных областях .

ЗАКЛЮЧЕНИЕЗАКЛЮЧЕНИЕ

В ходе теоретических и экспериментальных исследований, выполненных в диссертационной работе, были получены следующие научные и практические результаты:

1. Выполнен анализ и предложена классификация моделей информационного поиска речевых документов, выявлены достоинства и недостатки алгоритмов приближнного сравнения строк .

2. Разработана векторная модель информационного поиска речевых документов, основанная на использовании взвешенной косинусной меры и фонемного представления содержания, позволяющая частично учитывать ошибки автоматического распознавания речи в отличии от традиционных моделей поиска, основанных на точном сравнении слов .

3. Разработан метод фонемного поиска речевых документов на основе алгоритмов фонемного транскрибирования, использующих вероятностные характеристики букв и фонем обучающего словаря, вместо акустических параметров фонем, и позволяющий в отличии от нечткого поиска выполнять сравнение слов, учитывая их произношение .

4. Составлена тестовая коллекция, содержащая речевые документы на русском языке, а также множества запросов с указанием экспертной оценки релевантности .

5. Разработана программная модель системы информационного поиска речевых документов на основе разработанных алгоритмов .

Основные результаты диссертационного исследования отражены в следующих публикациях:

Статьи в рецензируемых изданиях, рекомендованных ВАК РФ:

1. Прозоров Д.Е., Яшина А.Г. (Татаринова А.Г.) Анализ алгоритмов фонемного транскрибирования в задачах контекстного поиска речевых

ЗАКЛЮЧЕНИЕ

документов // Инфокоммуникационные технологии – Самара, 2013 – Том 12. – № 4 – С. 62-65 .

2. Прозоров Д.Е., Яшина А.Г. (Татаринова А.Г.) Взвешенная косинусная мера векторной модели информационного поиска речевых документов // Информационные технологии. – №9, т. 21, 2015. – С. 715-720 .

3. Прозоров Д.Е., Яшина А.Г. (Татаринова А.Г.) Меры сходства слов, используемые в методах текстового и фонетического поиска речевых документов // Информатизация образования и науки. – 1(29), 2016. – С. 130-137 .

Прозоров Д.Е., Плетнв К.В., Яшина А.Г. (Татаринова А.Г.) 4 .

Апостериорная оценка состояний многосвязной цепи Маркова // Информация и космос. – 1(6), 2016. – URL: http://openbooks.ifmo.ru/read/15422/15422.pdf

Публикации, индексируемые международными базами:

5. Prozorov D., Yashina A. (Tatarinova A.) The extended longest common substring algorithm for spoken document retrieval // IEEE, 9th International Conference, Application of Information and Communication Technologies (AICT). – 2015. – pp. 88-90 .

6. Tatarinova A.G., Prozorov D.E. Spoken Document Retrieval System based on Phonemic Transcribing // IEEE East-West Design & Test Symposium (EWDTS) pp.337-340. - URL: http://ieeexplore.ieee.org/document/8110136/

7. Prozorov D.E., Tatarinova A.G. Grapheme-to-phoneme conversion based on high-order Markov chain for spoken term detection by text query // IEEE East-West

Design & Test Symposium (EWDTS) - 2017. - pp.646-650. - URL:

http://ieeexplore.ieee.org/document/8110058/

Публикации в других научных изданиях:

8. Яшина А.Г. (Татаринова А.Г.) Алгоритм контекстного поиска речевых аудио-файлов на основе фонемного сравнения слов // Advanced Science, 2012. С. 73-85. - URL: http://www.vyatsu.ru/uploads /file/1210/1_(2).pdf

9. Яшина А.Г. (Татаринова А.Г.) Анализ алгоритма контекстного поиска речевых документов при использовании буквенного или фонемного

ЗАКЛЮЧЕНИЕ

представления слов // Материалы XV Международной конференции «Цифровая обработка сигналов и е применение DSPA-2013» – Москва, 2013. – том I – С .

213-216 .

10. Яшина А.Г. (Татаринова А.Г.) Поиск речевых документов на основе фонемного транскрибирования слов с использованием скрытой марковской модели // Материалы Всероссийской ежегодной научно-технической конференции «Общество, наука, инновации» (НТК–2013) – Киров, 2013. – 1 электрон. опт. диск (CD-ROM) .

Яшина А.Г. (Татаринова А.Г.) Поиск речевых документов с 11 .

использованием различных мер сравнения фонем // Материалы Международной научно-практической конференции «Актуальные направления фундаментальных и прикладных исследований» – М. : spc Academic, 2013. – Т .

2. – С. 73–76 .

12. Яшина А.Г. (Татаринова А.Г.) Контекстный поиск речевых документов по текстовому запросу на основе tf-idf меры и фонемного транскрибирования // Всероссийская ежегодная научно-техническая конференция «Общество, наука, инновации» (НТК-2014)– Киров, 2014. – 1 электрон. опт. диск (CD-ROM) .

Прозоров Д.Е., Яшина А.Г. (Татаринова А.Г.) Модель 13 .

информационного поиска речевых документов по текстовому запросу на основе фонемного транскрибирования и tf-idf меры // Алгоритмы, методы и системы обработки данных – – 1 (26), 2014 URL:

http://amisod.ru/index.php?option=com_content&view=article&id=242: amisodyashina-prozorov&catid=26:amisod-2014-1-26

14. Яшина А.Г. (Татаринова А.Г.) Поиск речевых документов на основе алгоритма MetaphoneRu // Всероссийская научно-практическая конференция «Общество, наука, инновации» (НПК-2015) – Киров, 2015. – 1 электрон. опт .

диск (CD-ROM) .

15. Татаринова А.Г., Прозоров Д.Е. Функции оценки релевантности речевых документов текстовому запросу векторной и вероятностной моделей

ЗАКЛЮЧЕНИЕ

поиска // Всероссийская научно-практическая конференция «Общество, наука, инновации» (НПК-2016) – Киров, 2016. – c. 2743-2751. – 1 электрон. опт. диск (CD-ROM) .

16. Татаринова А.Г., Прозоров Д.Е. Анализ моделей информационного поиска документов с речевым содержанием // Информационные технологии моделирования и управления. – 5(101), 2016 Татаринова А.Г., Прозоров Д.Е. Алгоритм фонемного 17 .

транскрибирования на основе дерева альтернатив // Всероссийская научнопрактическая конференция «Общество, наука, инновации» (НПК-2017) – Киров, 2017. - С. 2236-2244 .

18. Татаринова А.Г., Прозоров Д.Е. Алгоритм сопоставления букв и фонем на основе правил в задаче поиска речевых документов по текстовому запросу // ВятГУ: №4 .

Advanced Science. - - 2017. - URL: http://advancedscience.ru/assets/mgr/docs/4(2017)/Технические/tatarinova-prozorov.pdf

19. Прозоров Д.Е., Татаринова А.Г. Фонемное транскрибирование в задаче поиска документов с речевым содержанием // деп. в ВИНИТИ РАН № 77В2017. - 2017. - 34 с .

Свидетельства о государственной регистрации программ для ЭВМ и баз данных

20. Яшина А.Г. (Татаринова А.Г.), Прозоров Д.Е. Система поиска речевых документов «WISEARCH». Свидетельство № 2015617364 от 08.07.2015 г .

21 Татаринова А.Г., Прозоров Д.Е. Программный модуль фонемного транскрибирования на основе нелинейного рекуррентного алгоритма .

Свидетельство № 2018660458 от 23.08.2018 г .

Список используемой литературы

–  –  –

1. Маннинг К.Д., Рагхаван П., Шютце Х. Введение в информационный поиск // М.-Спб.-К.: изд-во Вильямс, 2011. – 520 с .

2. Шемончук Д.С. Разработка и исследование методов улучшения функционала сетевых мультимедийных порталов в сфере управления образовательными процессами: дис. Москва, канд. тех. наук, МИЭМ, 2009 .

3. Larson M., Jones G. J. F. Spoken Content Retrieval: A Survey of Techniques and Technologies // Foundations and Trends in Information Retrieval – Vol. 5, Nos .

4–5 (2011) – pp. 235–422 .

4. Lee L.-s., Glass J., Lee H.-y, Chan C.-a. Spoken content retrieval – beyond cascading speech recognition with text retrieval // IEEE ACM Transactions on Audio, Speech and Language Processing, vol.23., no.23. - 2015. - pp.1389-1420 .

5. Brown M., Foote J., Jones G., Jones K.S., Young S. Open-vocabulary speech indexing for voice and video mail retrieval // ACM Multimedia conference, Boston. Wechsler M., Munteanu E., Schauble P. New Approaches to Spoken Document Retrieval // Information Retrieval, v.3. – 2000. – pp.173-188 .

7. Glavitsch U., Schauble P. A system for retrieving speech documents // In Proceedings of ACM. SIGIR. - 1992. - pp. 168–176 .

8. Rose R.C. Techniques for Information Retrieval from Speech Messages // The Lincoln Laboratory Journal - vol. 4. - 1991 .

9. Hauptmann A. Automatic spoken document retrieval // 2006. – http://repository.cmu.edu/compsci/960/

10. Ng K., Zue V. Subword Unit Representations for Spoken Document Retrieval // Proceedings of Eurospeech 97. – 1997. – pp. 1607-1610 .

11. Ng C., Wilkinson R., Zobel J. Experiments in spoken document retrieval using phoneme N-grams // Speech Communication, vol.32. - 2000. - pp. 61-77 .

Список используемой литературы

12. Златоустова Л. В., Потапова Р. К., Потапов В. В., Трунин-Донской В. Н .

Общая и прикладная фонетика // М.: Изд-во МГУ. - 1997 .

13. Мазуренко И.Л. Компьютерные системы распознавания речи .

Интеллектуальные системы, т.3. вып. 1-2 – Москва, 1998 г. - C. 117-134 Янь Цзинбинь, Хейдоров И.Э., Ткаченя А.А. Исследование 14 .

характеристик системы поиска ключевых слов на основе минимального интервала редактирования и мер доверительности // Речевые технологии – 2009. – С. 5-14 .

15. Кипяткова И.С., Ронжин А.Л.б Карпов А.А. Автоматическое распознавание русской речи // СПИИРАН. - CПб: ГУАП. - 2013. - 314 с .

16. Гусев М.Н. Методы и модели распознавания русской речи в информационных системах: дисс. СПб., д-ра. тех. наук, СПб ГУТ, 2014 .

17. A. Moyal et al., Phonetic Search Methods for Large Speech Databases // SpringerBriefs in Electronical and Computer Engineering. - 2013 .

18. Wang Y.-Y., Yu D., Ju Y.-C., Acero A. An Introduction to Voice Search // IEEE Signal Process. Mag., vol. 25, no. 3, - 2008. - pp. 28-38 .

19. Zhang Y., Glass J. R. Unsupervised Spoken Keyword Spotting via Segmental DTW on Gaussian Posteriorgrams // in Proc. ICASSP. - 2010. - pp.398– 403 .

20. Anguera X., Ferrarons M., Memory Efficient Subsequence DTW for Queryby-Example Spoken Term Detection // in Proc. ICME. - 2013. - pp. 1-6 .

21. Chan C.-A., Lee L.-s. Unsupervised hidden Markov modeling of spoken queries for spoken term detection without speech recognition // in Proc. Interspeech. Wang H., Leung C.-C., Lee T., Ma B., Li H. An acoustic segment modeling approach to query-by-example spoken term detection // in Proc. ICASSP. - 2012. pp. 5157–5160 .

Список используемой литературы

23. Chan C.-a., Lee L.-s. Model-based unsupervised spoken term detection with spoken queries // IEEE Trans. Audio, Speech, Lang. Process. - vol.21., no.7. - 2013. pp. 1330–1342 .

24. Chung C.-T., Chan C.-a., Lee L.-s. Unsupervised spoken term detection with spoken queries by multi-level acoustic patterns with varying model granularity // IEEE Acoustics, Speech and Signal Processing (ICASSP). - 2014. http://ieeexplore.ieee.org/document/6855121

25. Sakoe H., Chiba S. Dynamic programming algorithm optimization for spoken word recognition // IEEE Trans. Acoust., Speech, Signal Process. - vol .

ASSP-26, no.1. - 1978. - pp.43–49 .

26. Цзуэ В.В. Лингвистический подход к автоматическому распознаванию речевых сигналов // ТИИЭР. - т.73, №11. - 1985 .

27. Утробин В.А. Введение в теорию активного восприятия // Датчики и системы. - 2013. - № 7 (170). - С. 34-39 .

28. Гай В.Е. Информационный подход к описанию звукового сигнала // Труды Московского физико-технического института. - 2014. - Т. 6. № 2 (22). С. 167-173 .

Гай В.Е., Утробин В.А., Лукьянчикова А.В., Поляков И.В 29 .

Распознавание изолированных речевых команд с позиций теории активного восприятия // Системы управления и информационные технологии. - 2015. Т. 61. № 3. - С. 75-79 .

30. Савченко В.В., Савченко А.В. Метод фонетического декодирования слов в информационной метрике Кульбака - Лейблера для систем автоматического анализа и распознавания речи с повышенным быстродействием // Информационно-управляющие системы. - 2013. - № 2 (63). С. 7-12 .

31. Савченко В.В. Информационная теория восприятия речи // Известия высших учебных заведений России. Радиоэлектроника. - 2007. - Т. 6. - С. 3-8 .

Список используемой литературы

32. Савченко В.В. Фонема как элемент информационной теории восприятия речи // Известия вузов России. Радиоэлектроника. - 2008. - Т. 4 С. 3-10 .

33. Савченко В. В., Акатьев Д. Ю. Адаптивная кластерная модель минимальных речевых единиц в задачах анализа и распознавания речи // Наука и образование: научное издание МГТУ им. Н.Э. Баумана. - 2013. - № 2. - С. 323Савченко В.В., Акатьев Д.Ю., Карпов Н.В. Автоматическое 34 .

распознавание элементарных речевых единиц методом обеляющего фильтра // Известия высших учебных заведений России. Радиоэлектроника. - 2007. - Т. 4. С. 35-42 .

35. Савченко В.В., Акатьев Д.Ю. Информационная технология речевого профайлинга // Научные ведомости Белгородского государственного университета. Серия: Экономика. Информатика. - 2017. - Т. 42. № 9 (258). С. 157-165 .

36. Акатьев Д.Ю. Информационная система фонетического анализа речи в задачах обучения языку и постановки произношения // Информационные технологии моделирования и управления. - 2013. - № 4 (82). - С. 379-385 .

37. Glavitsch U. The First Approach to Speech Retrieval // 1995. – URL:

http://e-collection.library.ethz.ch/eserv/eth:3328/eth-3328-01.pdf

38. Rotovnik T. et al. Large Vocabulary Continuous Speech Recognition of an Inflected Language using Stems and Endings // SPECOM. - Volume 49, Issue 6. pp. 437–452 .

39. Chia T.K., Sim K.C., Li H., Ng H.T. Statistical lattice-based spoken document retrieval // ACM Transactions on Information Systems (TOIS). - Vol.28, N. 1. - 2010 .

40. Ng K., Zue V. Phonetic recognition for spoken document retrieval // In Proceedings of ICASSP 98. - 1998. - pp. 325-328 .

Список используемой литературы

41. Carnegie Mellon University Pronouncing Dictionary, 1995. - URL:

http://www.speech.cs.cmu.edu/cgi-bin/cmudict .

42. E. Greengrass «Information Retrieval: A Survey» // 2000. - URL:

https://www.csee.umbc.edu/csee/research/cadip/readings/IR.report.120600.book.pdf

43. Сегалович И.В. Как работают поисковые системы // Мир Internet. 2002 .

№ 10. С. 24-32 .

44. Robertson S.E. Sprck J.K. Relevance weighting of search terms // Journal

of the American Society for Information Science 27, 129-46 (1976). URL:

http://www.staff.city.ac.uk/~sb317/pubs.html

45. Salton G., Buckley C. Term-Weighting Approaches in Automatic Text Retrieval // Information Processing and Management. 1988. - Vol. 24, N. 5. pp. 513-523 .

46. Huang C-L., Hori C. Semantic Context Inference for Spoken Document Retrieval Using Term Association Matrices // IEEE International Conference on Acoustic, Speech and Signal Processing. - 2014. - pp.4144-4148 .

47. Sidorov G., Gelbukh A., Gmez-Adorno H., Pinto D. Soft Similarity and Soft Cosine Measure: Similarity of Features in Vector Space Model // Computaciny Sistemas. 2014. V. 18, N 3 .

48. Rijsbergen C.J., Information Retrieval // 2nd ed. London. - 1979. - pp. 208 .

49. Robertson S.E. The Probability Ranking Principle in IR // Journal of Documentation. - v.33. - 1977. - pp.294-304 .

50. Robertson S.E., Rijsbergen van C.J., Porter M.F. Probabilistic models of indexing and searching // In R.N. Oddy: Information Retrieval Research, Butterworths. - 1981. - pp. 35-56 .

51. Ponte J. M., Croft W. B. A language modeling approach to information retrieval // in Proc. SIGIR. - 1998 .

52. Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д .

Прикладная статистика: классификация и снижение размерности // М.:

Финансы и статистика, 1989 .

Список используемой литературы

53. Bilenko M., Mooney R., Cohen W., Ravikumar P. and Fienberg S. Adaptive name matching in information integration // IEEE Intelligent Systems. - 2003

54. Cohen W. W., Ravikumar P., Fienberg S. E. A comparison of string distance metrics for name matching tasks // In Proc. IJCAI-03 Workshop on Information Integration on the Web. - 2003 .

55. Гасфилд Д. Строки, деревья и последовательности в алгоритмах / Пер .

с англ. – Спб: изд-во Невский диалект, 2003. – 653 с .

56. Кормен, Томас Х., Лейзерсон, Чарльз И., Ривест, Рональд Л., Штайн Клиффорд Алгоритмы: построение и анализ // 3-е издание. Пер. с англ. М.:Издательский дом «Вильямс». - 2014. - 1328 с .

57. Knuth D. Morris J.H., Pratt J.V. Fast pattern matching in strings // SIAM Journal on Computing 6 (2). - 1977. - pp. 323-350 .

58. Boyer R. S., Moore J. S. A fast string searching algorithm // Comm .

ACM 20 - 1977. - pp. 762-772 .

59. Aho A.V., Corasick M.J. Efficient string matching: An aid to bibliographic search // Communications of the ACM. - V. 18, No 6. 1975. - pp. 333-340 .

60. Karp R.M.; Rabin M.O. Efficient randomized pattern-matching algorithms //IBM Journal of Research and Development. - 31 (2). - 1987. - pp. 249—260 .

61. В. И. Левенштейн. Двоичные коды с исправлением выпадений, вставок и замещений символов // Доклады Академий Наук СССР – 1965 .

62. Wagner R.A., Fischer M.J. The string-to-string correction problem // J .

ACM 21 – 1974. – P. 168-173 .

63. Damerau F.J. A technique for computer detection and correction of spelling errors // Communications of the ACM (ACM) – 7 (3). – 1964. – pp. 171–176 .

64. Jaro, M. A. Advances in record linkage methodology as applied to the 1985 census of Tampa Florida // Journal of the American Statistical Association. – 1989. – pp. 14–20 .

65. Winkler W.E. The State of Record Linkage and Current Research Problems // Statistics of Income Division, Internal Revenue Service Publication – 1999 .

Список используемой литературы

66. Ukkonen E. Approximate String-Matching with q-grams and Maximal Matches // Theoretical Computer Science – 1992. – pp. 191-211 .

67. Tiskin A. Semi-local String Comparison: Algorithmic Techniques and Applications // Mathematics in Computer Science. - 2008, V. 1, № 4. - pp. 571–603 .

68. Кнут Д. Э. Искусство программирования. Сортировка и поиск / под ред. В. Т. Тертышного (гл. 5) и И. В. Красикова (гл. 6). - 2-е изд. - Москва:

Вильямс, 2007. - Т. 3. - 832 с .

69. Zobel J. Dart P. Phonetic string matching: lessons from information retrieval // In Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval (SIGIR '96) – 1996. – pp. 166Tissot H., Peschl G., Fabro M. Fast Phonetic Similarity Search over Large Repositories // DEXA. - 2014. - pp. 74-81 .

71. Каньковски П. «Как ваша фамилия?» или русский Metaphone .

Программист. - №8, 2002. - С. 36-39 .

72. Успенский В.А. Одна модель для понятия фонемы // Вопросы языкознания - № 6. - 1964. - С. 39-53 .

73. Белоозеров В.Н. Формальное определение фонемы // Вопросы языкознания - № 6. - 1964. - С. 54-60 .

Лингвистический энциклопедический словарь // 74.

URL:

http://tapemark.narod.ru/les/index.html

75. Кодзасов С.В., Кривнова О.Ф. Общая фонетика // Москва. - 2001 .

76. Бондарко Л. В. Фонетика современного русского языка : учебное пособие для вузов / Л. В. Бондарко. - Санкт-Петербург: Изд-во СПбУ, 1998 .

77. Bisani M., Ney H. Joint-sequence models for grapheme-to-phoneme conversion // SPECOM. - 2008 .

78. Широкова А.М. Буквенно-звуковое преобразование в системах автоматической обработки речи // Структурная и прикладная лингвистика .

СПб.: межвуз.сб. под редакцией Герда А.С.– вып.10. – 2014. – 384 с .

Список используемой литературы

79. Богданова Н.В. Живые фонетические процессы русской речи: пособие по спецкурсу // СПб. - 2001 .

80. Кривнова О.Ф., Захаров Л.М., Строкин Г.С. Многофункциональный автоматический транскриптор русских текстов // Труды Международного конгресса исследователей русского языка. - М. - 2001 .

81. Hunnicutt S. Grapheme-to-phoneme rules: A review // Speech Transmission Laboratory, Royal Institute of Technology, Stockholm, Sweden, QPSR 2-3. - 1980. pp. 38-60 .

82. Смирнов В.А., Гусев М.Н., Фархадов М.П. Функция лингвистического процессора в системе автоматического анализа неструктурированной речевой информации // Автоматизация и современные технологии. - № 8. - 2013. С. 20-28 .

Кипяткова И.С., Карпов А.А. Модуль фонематического 83 .

транскрибирования для системы распознавания разговорной русской речи // Искусственный интеллект – – 2008. URL: http://www.nbuv.gov.ua/ portal/natural/ii/2008_4/JournalAI_2008_4/Razdel9/00_Kipyatkova_Karpova.pdf

84. Novak J., Minematsu N., Hirose K. WFST-based Grapheme-to-Phoneme Conversion: Open Sourse Tools for Alignment, Model-Building and Decoding // Proceedings of the 10th International Workshop on Finite State Methods and Natural Language Processing. - 2012. - pp.45-49 .

85. Text REtrieval Conference // URL: http://trec.nist.gov/

86. Brown M. G., Foote J. T., Jones G.J.F., Sparck K.J., Young S.J. Video Mail Retrieval by Voice: An Overview of the Cambridge:Olivetti Retrieval System // 1994. – URL: citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.18.1832&rep= rep1&type=pdf

87. Witbrock M., Hauptmann A.G. Speech Recognition and Information Retrieval: Experiments in Retrieving Spoken Documents // 1997. – URL: http:// citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.137.8095&rep=rep1&type=pdf Список используемой литературы

88. Logan B., Prasangsit P., Moreno P. Fusion of Semantic and Acoustic

Approaches for Spoken Document Retrieval // 2003. URL:

http://www.hpl.hp.com/techreports/2003/HPL-2003-55.pdf

89. Mamou J., Carmel D., Hoory R. Spoken Document Retrieval from CallCenter Conversations // 2006. – URL: http://researcher.watson.ibm.com/researcher /files/il-MAMOU/sigir06.pdf

90. Dharanipragada S., Franz M., Roukos S. Audio-Indexing for Broadcast News // in Proceedings of TREC6, 1997. – URL: http://citeseerx.ist.psu.edu/ viewdoc/summary?doi=10.1.1.50.7018

91. Система VoiceDigger // URL: https://www.speechpro.ru/product/sistemyupravleniya-kachestvom-i-avtomatizatsii/voice-digger

92. Речевые технологии компании «Стэл - Компьютерные Системы» // URL: speech.stel.ru/main/технологии/поиск-ключевых-слов/

93. Решение 3i Technologies: комплексный анализ речевых сообщений большого объема // URL: http://3itech.ru/production/obrabotka-rechi/kompleksnyyanaliz-rechevykh-soobshcheniy-bolshogo-obema

94. Поиск ключевых слов в аудиозаписях компании Speech Drive // URL:

http://speech-drive.ru/analyze/

95. Smirnov V., Ignatov D., Gusev M., Farkhadov M., Rumyantseva N., Farkhadova M. A Russian Keyword Spotting System Based on Large Vocabulary Continuous Speech Recognition and Linguistic Knowledge // Journal of Electrical and Computer Engineering - 2016. URL: https://www.hindawi.com/journals/ jece/2016/4062786/

96. Common Evaluation Measures // URL: http://trec.nist.gov/pubs/trec10/ appendices/measures.pdf

97. Российский семинар по Оценке Методов Информационного Поиска // URL: http://romip.ru/

98. Утилита оценивания эффективности информационного поиска // URL:

http://trec.nist.gov/trec_eval/ Список используемой литературы Основные принципы распознавания речи 99.

// URL:

https://cmusphinx.github.io/wiki/tutorialconcepts/

100. CMU Sphinx. Open Source Toolkit For Speech Recognition // URL:

http://cmusphinx.sourceforge.net

101. Hatcher E., Gospodnetic O., McCandless M. Lucene in Action // URL:

https://www.manning.com/books/lucene-in-action-second-edition

102. Lucene.NET // URL: https://www.nuget.org/ packages/Lucene.Net

103. Терехов С.А.. Введение в байесовы сети //Школа-семинар «Совр .

пробл. нейроинформатики», 29-31 января 2003. МИФИ, Москва.-V Всеросс .

конф. «Нейроинформатика-2003»/Отв.ред. Ю.В. Тюменцев - Часть I: Лекции по нейроинформатике. - М.: МИФИ, 2003. - 188 с. (149-186) .

104. Doob J.L. Stochastic processes // New York: Wiley, 1990 .

105. Kemeny J.G. Finite Markov chains // New York: Springer-Verlag, 1976 .

106. Яншин В.В. Многосвязные цепи Маркова и их свойства // Радиотехника и электроника, Наука. – 1993. – Том 38. – № 6 – С. 1081-1091 .

107. Прозоров Д.Е., Плетнв К.В., Яшина А.Г. Апостериорная оценка состояний многосвязной цепи Маркова // Информация и космос. – 1(6), 2016. – URL: http://openbooks.ifmo.ru/read/15422/15422.pdf

108. Рабинер Л.Р. Скрытые Марковские модели и их применение в избранных приложениях при распознавании речи: Обзор // ТИИЭР. Т. 77, № 2 .

– 1989. – C. 86-120

109. Kullback S., Leibler R.A. On information and sufficiency // The Annals of Mathematical Statistics. - Vol.22. № 1. - 1951. - pp. 79-86 .

110. Accord.Net Framework // URL: http://code.google.com/p/accord/

111. Yandex SpeechKit // URL: https://tech.yandex.ru/speechkit/

112. Акустические и языковые модели русского языка // URL:

https://sourceforge.net/projects/cmusphinx/files/Acoustic and Language Models/Russian/

113. Проект ru4sphinx // URL: https://github.com/zamiron/ru4sphinx Список используемой литературы

114. Ляшевская О., Шаров С. Новый частотный словарь русской лексики // М: Азбуковник, 2009. - URL: http://dict.ruslang.ru/freq.php

115. Словари, созданные на основе национального корпуса русского языка // URL: http://dict.ruslang.ru/

116. Новости Первый канал // URL: https://www.1tv.ru/news

117. Проект FestLang // URL: http://sourceforge.net/projects/festlang.berlios

118. Коллекция radio_news // URL: https://goo.gl/4TzU8T Утилита анализа текстовых корпусов AntConc 119. // URL:

http://www.laurenceanthony.net/software.html Приложение 1а Приложение 1а Свидетельство о государственной регистрации программы для ЭВМ Приложение 1б Приложение 1б Свидетельство о государственной регистрации программы для ЭВМ Приложение 2 Приложение 2 Акт об использовании результатов диссертационной работы АО «НИИ СВТ»






Похожие работы:

«ПРАВИТЕЛЬСТВО РОССИЙСКОЙ ФЕДЕРАЦИИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ "САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ" ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА на тему: Фразеологические еди...»

«ПРАВИТЕЛЬСТВО РОССИЙСКОЙ ФЕДЕРАЦИИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ "САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ" ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА на тему: Свидетельства о п...»

«Памяти А. А. Мальцевой посвящается Алла Александровна Мальцева (1968–2018 гг.) РОССИЙСКАЯ АКАДЕМИЯ НАУК СИБИРСКОЕ ОТДЕЛЕНИЕ ИНСТИТУТ ФИЛОЛОГИИ СЛОЖНОСТЬ ЯЗЫКОВ СИБИРСКОГО АРЕАЛА В ДИАХРОННО-ТИПОЛОГИЧЕСКОЙ ПЕРСПЕКТИВЕ Ответственный редактор канд. филол. наук А. А. Мал...»

«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ Никитина Ирина Владимировна Лексико-семантическая группа глаголов приведения в эмоциональное состояние в современном русском языке Выпускная квалификацион...»

«Иллюстрированное практическое руководство © Электрик Инфо – http://electrik.info СОДЕРЖАНИЕ: 1. Что такое Arduino? Разберется даже полный 3 новичок!2. Быстрая сборка схем на беспаечных макетных 25 платах 3. Особенности подключ...»

«1 Языкознание 1. En accion 2 : curso de espanol : Libro del alumno / E. Verdia [et al.]. Madrid : Clave Ш147.21ELE, 2005. 208 p. : il.; 28 sm. 923(Исп) Перевод заглавия: Курс испанского языка : учеб. Е54 Экземпляры: всего:1 МЛЦ(1) 2. En accion 2 : curso de espanol : Cuaderno de actividades / N. Vaquero. Madrid : Ш147.21C...»

«Уччебно-методический комплекс специальности Форма Ф СО ПМУ 7.18.2/08 Министерство образования и науки Республики Казахстан Павлодарский государственный университет им. С . Торайгырова Кафедра русской филологии УЧЕБНО-МЕТОДИЧЕСКИЙ К...»

«DISSERTATIONES PHILOLOGIAE SLAVICAE UNIVERSITATIS TARTUENSIS АРТЕМ ШЕЛЯ "Русская песня" в литературе 1800–1840-х гг. DISSERTATIONES PHILOLOGIAE SLAVICAE UNIVERSITATIS TARTUENSIS DISSERTATIONES PHILOLOGIAE SLAVICAE UNIVERSITATIS TARTUENSIS АРТЕМ ШЕЛЯ "Русская песня" в литературе 1800–1840-х гг. Диссертация допущена к защите на соис...»

«Памятка по системе CELLA для штата Флорида ОБЩАЯ ИНФОРМАЦИЯ О СИСТЕМЕ CELLA Комбинированная система оценки изучения английского языка (CELLA — Comprehensive English Language Learning Assessment) исполь...»

«ВЕРХОВНА РАДА УКРАЇНИ ІНФОРМАЦІЙНЕ УПРАВЛІННЯ ВЕРХОВНА РАДА УКРАЇНИ У Д ЗЕРКАЛІ ЗМІ: За повідомленнями друкованих та інтернет-ЗМІ, телебачення і радіомовлення 13 листопада 2013 р., середа ДРУКОВАНІ ВИДАННЯ Для розвитку відносин із Республікою Білорусь є значний потенціал "Голос України" Учора в парламенті відбулося четверт...»

«Ученые записки Крымского федерального университета имени В. И. Вернадского Филологические науки. Том 1 (67). № 4. 2015 г. С. 36–40. УДК 070 + 004.738.5: 316.77 СПОРТИВНАЯ ПРОБЛ...»

«УНИВЕРСИТАТЯ ДЕ СТАТ НИСТРЯНЭ "Т.Г. ШЕВЧЕНКО" Институтул де лимбэ ши литературэ Катедра де филоложие молдовеняскэ В.Б. Сеник Е.К. Опря Интродучере ын студиул литературий Супорт де курс пентру студенци...»

«СОДЕРЖАНИЕ ВВЕДЕНИЕ..2 ГЛАВА 1. Теоретические основы изучения фразеологизмов в терминоведении..5 1.1. Понятие фразеологизма..5 1.2. Фразеологическая номинация в терминологии . 1.3. Термин и его опреде...»

«А.А.Зализняк. О языке древней Индии. 1 А.А. Зализняк О языке древней Индии (Лекция, прочитанная 11 февраля 2011 г. в школе "Муми-тролль") Когда возник вопрос, что бы такое еще вам рассказать, я должен...»

«ISSN 2074-1847 ПАЁМИ ДОНИШГОЊИ МИЛЛИИ ТОЉИКИСТОН 2018. № 8. ВЕСТНИК ТАДЖИКСКОГО НАЦИОНАЛЬНОГО УНИВЕРСИТЕТА 2018. № 8. BULLETIN OF THE TAJIK NATIONAL UNIVERSITY 2018. No. 8. МАРКАЗИ ТАБЪУ НАШР,...»

«Филология и лингвистика ФИЛОЛОГИЯ И ЛИНГВИСТИКА Костюкова Татьяна Анатольевна профессор ФГАОУ ВО "Национальный исследовательский Томский государственный университет" г. Томск, Томская область Сайни Сону ассистент Университет Дж. Неру г. Дели, Республика Индия ДОКУМЕНТАЛЬНАЯ ПРОЗА: СПЕЦИФИКА...»

«КОКШАЕВА Нина Овшиновна ЛИНГВИСТИЧЕСКИЙ АНАЛИЗ КАЛМЫЦКИХ АВТОРСКИХ ДОКУМЕНТОВ середины XVIII ВЕКА (на материале писем калмыцкого хана Дондук-Даши) Специальность: 10.02.22 "Языки народов зарубежных стран Европы, Азии, Африки, аборигенов Америки и Австралии (монгольские языки)" АВТОРЕФЕРАТ диссер...»

«163 ного его источником. В положении препозиции к существительному со значением “запах” данные прилагательные квалифицируют обонятельный стимул на основе ощущений вос­ принимающего. “А1огз 1езрогззоп...»

«Умеренкова Анна Валерьевна ЛИНГВО-КОГНИТИВНОЕ МОДЕЛИРОВАНИЕ ЭФФЕКТА ОБМАНУТОГО ОЖИДАНИЯ Специальность 10.02.19 – теория языка АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата филологически...»

«Ондар Валентина Сувановна ОТРАЖЕНИЕ КАТЕГОРИИ ПРОСТРАНСТВА В ТУВИНСКОМ ЯЗЫКЕ (НА МАТЕРИАЛЕ ГЕРОИЧЕСКОГО ЭПОСА БОКТУГ-КИРИШ, БОРА-ШЭЭЛЕЙ) Работа посвящена анализу именных лексем с пространственной семантикой в тексте героического эпоса БоктугКириш, Бора-Шээлей. В...»

«Решение задачи распознавания блокируемых объявлений с помощью методов обработки естественных языков А. С. Бессалов, А. П. Рыжов В данной статье речь пойдёт о решении задачи распознавания нелегального контента в объявлениях на сайте Avito [1], опубликованной на популярном сервисе по решению задач машинно...»

«С.М. Тоторкулова 1 курс, магистрант, Институт международного сервиса, туризма и иностранных языков науч. рук. проф. П. И. Шлейвис Слова категории состояния как проблематичная часть речи Появление новых частей речи в языке является одной из существен...»







 
2019 www.librus.dobrota.biz - «Бесплатная электронная библиотека - собрание публикаций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.