WWW.LIBRUS.DOBROTA.BIZ
БЕСПЛАТНАЯ  ИНТЕРНЕТ  БИБЛИОТЕКА - собрание публикаций
 

«МАРКОВИЧ  Наталья  Михайловна МЕТОДЫ  ОЦЕНИВАНИЯ  ХАРАКТЕРИСТИК ТЯЖЕЛО-ХВОСТОВЫХ  СЛУЧАЙНЫХ ВЕЛИЧИН ПО  КОНЕЧНЫМ ВЫБОРКАМ ...»

РОССИЙСКАЯ  АКАДЕМИЯ  НАУК

ИНСТИТУТ ПРОБЛЕМ УПРАВЛЕНИЯ

им.  В.А.  ТРАПЕЗНИКОВА

УДК  519.234  На  правах  рукописи

МАРКОВИЧ  Наталья  Михайловна

МЕТОДЫ  ОЦЕНИВАНИЯ  ХАРАКТЕРИСТИК

ТЯЖЕЛО-ХВОСТОВЫХ  СЛУЧАЙНЫХ

ВЕЛИЧИН

ПО  КОНЕЧНЫМ ВЫБОРКАМ

Специальность  05.13.01  —  Системный  анализ,

управление

и  обработка  информации  (в  отраслях  информатики, вычислительной  техники  и  автоматизации) Автореферат диссертации  на  соискание  ученой  степени доктора  физико-математических  наук Москва — 2004 Работа  выполнена  в  Институте  проблем  управления им.  В.А.  Трапезникова  Российской  академии  наук .

Официальные оппоненты:

доктор  физико-математических  наук  А.В.  Добровидов, доктор  физико-математических  наук  А.А.  Гущин, доктор  физико-математических  наук  А.В.  К р я н е в  .

Ведущая  организация:

Физический  факультет  Московского  государственного университета  им.  М.В.  Ломоносова .

Защита  диссертации  состоится  21  октября  2004  г.  в  13  часов на  заседании  диссертационного  Совета  Д  002.226.02  при Институте  проблем  управления  им.  В.А.  Трапезникова  РАН по  адресу:  117997 Москва,  ул.  Профсоюзная  65,  ИПУ  РАН .

С диссертацией  можно ознакомиться  в библиотеке Института проблем  управления  РАН .

Автореферат  разослан  2004  г .

Ученый  секретарь диссертационного  Совета  Д002.226.02 кандидат  технических  наук  В.Н.  Лебедев

ОБЩАЯ  ХАРАКТЕРИСТИКА  РАБОТЫ

Актуальность  проблемы .

В  последние  годы  возрос  интерес  к  задачам  прогноза рисков  от  экстремальных  явлений.  Измерения  в  Интернете (продолжительности  сессий,  длины  передаваемых  по Интернету  файлов  и  др.),  размеры  страховок  при  катастрофах,  наблюдаемые  очень  низкие  или  высокие  температуры, уровень  воды  в  реках  при  наводнениях,  сильные  ветры, концентрации  редких  полезных  ископаемых  и  озона  в атмосфере,  разброс  размеров  пылевых  частиц  у  комет  могут быть  описаны  с  помощью  тяжело-хвостовых  распределений .

К  тяжело-хвостовым  распределениям  могут  быть  отнесены  те  распределения,  хвост  которых  убывает  на бесконечности  медленнее,  чем  экспоненциальный  хвост.  Такие  распределения  могут  не  иметь  конечного  второго  или  даже  первого моментов,  и  это,  в  частности,  определяет  специфику  их исследования .

Например,  центральная  предельная  теорема  о сходимости  распределения  сумм  независимых  одинаково распределенных  случайных  величин  (cл.в.)  к  нормальному распределению  выполняется  для  огромного  числа распределений:  все,  что  нам  нужно  -  это  конечность дисперсии  для  слагаемых  суммы.  Если  же  эта  дисперсия бесконечна,  то  в  качестве  предельных  распределений для  нормированных  сумм  мы  получаем  так  называемые устойчивые  распределения,  Levy,  (1925);  Khintchine, Levy,  (1936);  Гнеденко,  (1939).  Условие  Крамера  о существовании  производящей  функции  моментов  не выполняется  для  тяжело-хвостовых  распределений .

Поэтому  многие  результаты  теории  больших  уклонений, требующие  выполнения  этого  условия  (например,  теорема Крамера  о  сходимости  хвоста  распределения  суммы конечного  числа  независимых  случайных  величин  к  хвосту нормального  распределения),  нарушаются.  В  отсутствии 2-го  момента  изменяется  линейная  аппроксимация  функции восстановления  для  больших  времен  наблюдения .





В  статистическом  рассмотрении,  анализ  характеристик случайных  величин,  распределение  которых  описывается тяжело-хвостовыми  моделями,  также  требует  специальных, отличных  от  классических,  статистических  методов .

Например,  гистограммы  хорошо  оценивают  легкохвостовые  (без  тяжелых  хвостов)  плотности  распределения вероятностей  (ПР),  но  на  тяжело-хвостовых  ПР  и для  конечных  выборок  дают  результаты,  вводящие  в заблуждение:  переглаживают  ПР  или  показывают  пики в  хвостовой  части  ПР.  Этот  эффект  наблюдается  и  для других  неиараметрических  оценок  таких,  как  ядерные, проекционные,  сплайн  оценки  Чепцом,  (1972):  Silvermani, (1986);  Деврой  и  Дьерфи,  (1985).  Оценивание  высоких квантилей  для  тяжело-хвостовых  распределений  не может  быть  проведено  с  помощью  эмпирических  функций распределения  или  взвешенных  эмпирических  квантильных оценок,  использующих  порядковые  статистики  выборки,  как это  обычно  делается .

Игнорирование тяжело-хвостовости  в данных,  использование легко-хвостовых  моделей-  могут  привести  к  серьезным ошибкам  в  оценивании  и  управлении  системами .

Цель  работы  -  разработка  статистических  методов  анализа характеристик  сл.в.,  распределенных  с  тяжелыми  хвостами, по  выборкам  независимых  одинаково  распределенных  сл.в .

ограниченного  объема .

Задача  восстановления  ПР  по  эмпирическим  данным является  центральной  в  математической  статистике.  ПР используется  как  для  описания  генеральной  совокупности .

так  и  для  решения  задач  классификации,  разладки, оценивания  функционалов,  как  например,  интенсивности отказов  и  многих  других.  В  литературе  предлагаются модели  хвоста  распределения,  которые  используются для  построения  оценок  высоких  квантилей,  вероятностей  и среднего  числа превышения  случайной  величиной  некоторого высокого  уровня  -  характеристик,  необходимых  для  оценки риска  потерь  от  редких  событий.  Для  этого  используются параметрические  модели,  основанные  на  асимптотических моделях  поведения  максимума  выборки,  или  "почти параметрические"  (с  точностью  до  функций  со  специально заданными  свойствами)  модели  распределений  параметры которых  (хвостовые  индексы)  оцениваются  по  выборкам непараметрическими  методами.  На  практике  (например,  в задаче  классификации  или  при  оценивании  математического ожидания)  часто  необходимо  иметь  оценку  ПР  в  целом,  т.е .

хвостовой  и  основной  части  ПР.  Параметрические  модели хвоста  для  получения  таких  оценок  не  подходят .

Необходимость  различного  сглаживания  в  разных  областях тяжело-хвостовых  ПР  привела  к  ядерным  оценкам  с переменной  шириной  окна  Abramson,  (1982);  Hall,  (1992); Silverman,  (1986).  Однако  эти  оценки  непригодны,  по-крайней мере,  для  ядер  с  ограниченным  носителем  для  оценивания хвостовой  части  ПР,  где  наблюдения  отсутствуют .

Актуальны  развиваемые  в  работе  подходы  к  оцениванию тяжело-хвостовых  ПР  с  использованием  предварительного преобразования  (трансформации)  данных  и  параметриконепараметрического  раздельного  оценивания  хвостовой  и основной  частей  ПР.  Оба  подхода  нацелены  на  хорошее оценивание  хвостовой  и  основной  частей  ПР .

В  диссертации  предлагается  трансформировать  данные к  ограниченному  интервалу  (к  выборке  с  удобной для  оценивания  ПР),  оценить  ПР  непараметрическим методом  по  трансформированным  данным  и  растянуть  эту оценку  обратным  преобразованием.  Полученные  оценки с  фиксированными  параметрами  сглаживания  работают как  локально-адаптивные.  Этот  подход  реализуется  при использовании  логарифмического  преобразования.  Однако преобразования,  независящие  от  исходного  распределения, как  логарифмическое,  могут  привести  к  разрывным  ПР трансформированных  сл.в.,  трудным  для  оценивания .

В  диссертации  много  внимания  уделяется  предложению трансформаций  и  оценок  ПР  для  трансформированных сл.в.  обеспечивающих  наименьшую  интегральную среднеквадратичную  ошибку  оценивания  и  правильный порядок  убывания  оценки  ПР  в  хвостовой  области .

Другой  рассматриваемый  подход  -  смешанное параметрико-непараметрическое  оценивание,  когда  хвост ПР  оценивается  параметрической  моделью,  а  основная часть  ПР  -  непараметрической  оценкой.  Похожая  идея реализована  в  оценках  Barron,  Gyorfi  &  van  der  Meulen, (1992),  где  параметрическая  модель  хвоста  "накладывается" на.  гистограммную  оценку  основной  части  ПР.  Оценки чувствительны  к  выбору  параметрической  модели  и  плохо оценивают  основную  часть  ПР  для  выборок  ограниченного объема.  Между  тем  на  практике  часто  встречаются многомодальные  тяжело-хвостовые  распределения .

Поэтому  актуально  предложение  комбинированных  оценок, нацеленных  на  хорошее  восстановление  одновременно многомодальной  основной  части  и  хвоста  ПР .

Необходимость  непараметрических  оценок  ПР  с правильным  поведением  в  хвостовой  области  очевидна .

Это  особенно  важно,  если  сравниваются  ПР  нескольких классов.  При  использовании  эмпирического  байесовского классификатора  наблюдения  классифицируются  путем сравнения  оценок  ПР  каждого  класса.  Так  как  наблюдение может появиться как в области хвоста, так и в основной части ПР,  точность  оценивания  на  хвостах  принципиальна  для классификации.  Известно  много  методов  классификации, использующих  оценки  ПР,  Silverman,  (1986);  Айвазян, (1989).  Для  тяжело-хвостовых  наблюдений  актуально рассмотреть  процедуру,  позволяющую  усилить  влияние редких  наблюдений  в  хвостовой  области  на  качество классификатора  и,  тем  самым,  предотвратить,  возможно большие  потери  от  маловероятных  событий .

Оценки  квантилей  высоких  порядков  (например .

99,  99.9-процентных  квантилей)  для  тяжело-хвостовых распределений  применяются  для  определения  значений характеристик  наблюдаемых  объектов,  приводящих  к редким,  но  возможно  большим  потерям,  при  установке порогов  изменения  параметров  технических  систем .

Высокие  квантили  обычно  располагаются  на  границе или  за  пределами  выборки.  Ввиду  отсутствия  наблюдений за пределами  разброса выборки  использование эмпирической функции  распределения  или  взвешенных  оценок, использующих  порядковые  статистики  выборки,  для оценивания  таких  квантилей  невозможно.  Оценивание высоких  квантилей  основано  на  выборе  предварительной квантили внутри разброса выборки  (порога)  и экстраполяции ее  к  некоторому  значению  за  пределами  выборки.  Для этого,  как  правило,  используются  асимптотические модели  поведения  хвостов  распределения,  основанные на  асимптотическом  распределении  максимума  выборки .

Недостаток  оценок  высоких  квантилей -  их чувствительность к  выбору  порога  и  модели  хвоста.  Актуально  предложение более  точных  оценок  высоких  квантилей .

Хвостовой  индекс  -  другая  характеристика,  важная  для анализа  тяжело-хвостовых  данных.  С  помощью  него  можно определить  наличие  в  данных  тяжелых  хвостов,  а  также количество  конечных  моментов.  Все  оценки  характеристик тяжело-хвостовых  сл.в.  так  или  иначе  базируются  на  оценке хвостового  индекса.  Известно  много  оценок  хвостового индекса:  оценка  Хилла;  момент-оценки,  Dekkers,  Einmahl, de  Haan,  (1989);  UH-оценки,  Berlinet,  (1998);  ядерные оценки,  Csorgo,  Deheuvels,  Mason,  (1985);  оценка отношения, Goldie,  (1987).  Однако  эти  оценки  не  обладают  свойством рекурсивности,  важным  для  организации  вычислений  в режиме  реального  времени  (on-line) .

В  диссертации  исследуется  оценка  хвостового  индекса, предложенная  в  Davydov,  Paulauskas,  Rackauskas.  (2000), которая  использует  независимые  отношения  вторых наибольших  порядковых  статистик  к  наибольшим порядковым  статистикам  в  подгруппах  наблюдений  и обладает  свойством  рекурсивности.  Выбор  параметра метода  -  числа  наблюдений  в  подгруппах  выборки,  по выборкам ограниченных  объемов,  авторами  не  исследовался .

Это  было  реализовано  в диссертации .

При  решении  задач  популяционного  анализа,  связанных с  выяснением  причин  наступления  каких-то  событий в  популяции  (например,  заболеваемости,  смертности), важную  роль  играет  функция  риска  смерти.  При исследовании  надежности  технических  систем  эта  функция называется  интенсивностью  отказов.  При  оценивании этой  функции  по  независимым  экспериментальным данным  часто  применяется  какая-либо  параметрическая модель .

  Однако  описать  данные  достаточно  точно  с  ее помощью,  привлекая  в  качестве  параметров  то  или  иные влияющие  факторы,  бывает  трудно.  Параметрический подход  проблематичен  и  при  анализе  популяционных процессов  средствами  полумарковских  моделей,  когда интенсивность  наступления  событий  интерпретируется  как интенсивность  перехода  из  одного  состояния  в  другое  [3,  5, 17].  Следует учесть,  что  поведение  интенсивности  отказов  на правом  конце  действительной  оси  разнится  в  зависимости от  класса  распределения:  для  финитных  и  легко-хвостовых распределений  интенсивность  отказов  стремится  к при  для  экспоненциального  распределения  эта функция  постоянна,  а для  тяжело-хвостовых  распределений она  стремится  к  0  при  Это  вызывает  проблемы для  непосредственного  применения  непараметрических методов  при  оценивании  этой  функции:  предварительного оценивания  ПР  и  функции  распределения  (ФР);  ядерных оценок  или  оценок  гистограммного  типа,  Prakasa  Rao, (1983);  метода  регуляризации,  Stephaniuk,  (1992) .

Для  тяжело-хвостовых  распределений  можно  провести предварительное  преобразование  выборки  к  конечному интервалу  и  оценивать  интенсивности  наступления событий,  соответствующие  финитным  распределениям, непараметрическими  методами.  Это  сделано  в  диссертации .

При  анализе  устойчивости  технических  систем,  гарантийном контроле  качества  приборов,  часто  необходимо  оценить функцию  восстановления  (ФВ),  которая  показывает среднее  число  появлений  события  (например,  отказа прибора)  за  фиксированный  интервал  времени.  Обычно измеряется  число  наступлений  событий  в  интервале времени  фиксированной  длины,  например,  число  звонков  в фиксированное  время  в  течение  нескольких  дней.  В  этом случае  для  оценивания  ФВ  необходимо  иметь  несколько реализаций  процесса.  В  диссертации  оценивание  ФВ проводится  по  наблюдаемым  временным  промежуткам между  событиями  только  одной  реализации  процесса, что  важно  при  гарантийном  контроле  качества  или,  если многократное  наблюдение  процесса  требует  больших  затрат .

В  аналитическом  виде  ФВ  получена  лишь  для  немногих распределений.  Имеется  много  работ  по  численному восстановлению  ФВ  в  случае,  когда  распределение временных  интервалов  между  событиями  известно.  Так  как предварительное  оценивание  ФР  или  ПР,  если  последняя существует,  затруднительно  особенно,  когда  распределение имеет  тяжелые  хвосты,  актуально  предложение  методов непосредственного  оценивания  ФВ.  Работы  но  этому направлению  крайне  немногочисленны,  Frees,  (1986);

Grubel,  Pitts,  (1993);  Schneider,  Lin  &  O'Cinneide,  (1990) .

Оценка  Фриза  требует  большого  объема  вычислений  уже при  выборках  объема  20-30  точек.  Важно  предложение непараметрических  оценок  ФВ,  обеспечивающих  хорошую точность  оценивания  при  небольшом  количестве  вычислений и  позволяющих  вести  расчеты  для  достаточно  больших выборок.  Это  сделано  в  диссертации .

Цели  работы:

1.  Разработать  более  точные  непараметрические  и параметрико-непараметрические  методы  оценивания тяжело-хвостовых  ПР .

2.  Применить  полученные  оценки  ПР  для  задачи классификации .

3.  Получить  и  исследовать  оценки  для  квантилей  высоких порядков  тяжело-хвостовых  распределений .

4.  Предложить  выбор  параметра  для  оценки  хвостового индекса,  предложенной  в  Davydov,  Paulauskas,  Raekauskas, (2000) .

5.  Получить  и  исследовать  непараметрические  оценки функции интенсивности отказов  (риска смерти  в популяции) .

6.  Разработать  непараметрический  метод  оценивания функции  восстановления  с  хорошей  точностью  оценивания при  небольшом  количестве  вычислений .

7.  Продемонстрировать  работу  полученных  методов  на модельных  и  реальных  данных .

методика  исследований  базируется  па Общая  результатах  теории  вероятностей,  математической статистики,  теории  экстремальных  величин,  теории  решения некорректных  задач.  Для  исследования  точности  методов применяются  как  результаты  теоретических  исследований, так  и  моделирование  на  ЭВМ .

Научная новизна работы заключается в том, что:

1.  Предложен  параметрико-непараметрический  метод оценивания  тяжело-хвостовых  ПР,  где  основная  часть  ПР оценивается конечным разложением по базисным функциям, а  хвостовая  часть  -  параметрической  моделью  типа  Парето .

2.  Разработаны  и  исследованы  методы  восстановления тяжело-хвостовых  ПР  при  помощи  трансформаций данных,  позволяющие  сохранить  порядок  убывания  хвоста истинной  ПР  и  имеющие  наименьшие  интегральные среднеквадратичные  ошибки .

3.  Рассмотрено  использование  предложенных  оценок  ПР  в задаче  классификации .

4.  Разработана  и  исследована  новая  оценка  для квантилей  высоких  порядков  в  предположении,  что  хвост распределения  типа  Парето.  Доказано,  что  распределение логарифма  отношения  предлагаемой  оценки  (и  оценкиВайссмана,  Weissman,  (1978))  к  истинной  квантили асимптотически  нормально .

5.  Для  оценки  хвостового  индекса,  предложенной  в  Davydov, Paulauskas,  Rackauskas,  (2000),  предложен  и  исследован бутстреп-метод  для  оценки  параметра  метода.  Показана рекурсивность  оценки  для  расчетов  в  реальном  времени .

6.  Рассмотрено  оценивание  интенсивности  отказов для  распределений  с  тяжелыми  хвостами.  Используя трансформации  данных  к  ограниченному  интервалу, предлагается свести оценивание к оцениванию интенсивности отказов  (риска  смерти)  для  финитной  ПР .

7.  Для  финитных  ПР  предложены  оценки  функции  риска смерти  из  двух  интегральных  уравнений  с  разными ядрами  и  правыми  частями  методом  стохастической регуляризации.  При  определенном  выборе  параметра регуляризации  доказана  сходимость  оценок  в  С,  а  также скорость  сходимости  в  L2  в  случае  ограниченного  изменения k-ой  производной  функции  риска  смерти .

8.  Получены  оценки  функций  отношения  рисков  смерти и  ПР  продолжительности  жизни  в  двух  популяциях  для финитных  ПР  как  решение  интегральных  уравнений  с неточно  заданными  правыми  частями  и  операторами методом  регуляризации.  Оценки  применяются  для выявления  эффекта  гормезиса  (т.е.  "стимулирующего эффекта  малых  доз  каких-либо  веществ,  которые  в  больших дозах  вредны"  British  medical  dictionary,  (1961))  в  популяции по эмпирическим данным .

9.  Разработана  непараметрическая  оценка  функции восстановления  для  ограниченных  временных  интервалов [0, t] по  независимым  наблюдениям  временных  промежутков между  событиями  с  неизвестной  ПР,  требующая  меньшего объема  вычислений  по  сравнению  с  известными  оценками ФВ.  Доказана  равномерная  сходимость  оценки  почти наверное  к  истинной  ФВ  для  легко-  и  тяжело-хвостовых распределений  временных  промежутков  между  событиями .

Для  распределений  с  экспоненциальными  и  правильно меняющимися  хвостами  доказана  скорость  равномерной сходимости.  Предложен  выбор  параметра оценки  по  выборке методом  бутстреп  и  из  графика  зависимости  оценки  ФВ  от этого  параметра .

Практическая  ценность  работы  определяется 1.)  созданием  новой  методологии  оценивания  тяжелохвостовых  ПР  по  выборкам  ограниченного  объема, работоспособность  которой  продемонстрирована  для  задач классификации  в  Интернете,  на  многочисленных  примерах имитационного  моделирования  и  на  реальных  данных измерений  в  Интернете;

2.)  созданием  непараметрической  оценки  квантилей  высоких порядков,  для  применения,  например,  в  контроле  риска потерь  от  сужения  области  определения  наблюдаемых случайных  параметров  в  технических  системах  (например,  в Интернете)  до  конечного  интервала;

3.)  созданием  точного  и  экономичного  в  смысле  вычислений метода  оценивания  ФВ,  который  может  быть  применен для  контроля  загрузки  телефонных  сетей.  Интернета, гарантийного  контроля  качества  приборов;

4.)  выработкой  рекомендаций  по  практическому определению  параметров  для  одной  оценки  хвостового индекса,  являющегося  базовой  характеристикой  при  анализе данных,  распределенных  с  тяжелыми  хвостами;

5.)  выработкой  практических  рекомендаций  по  оцениванию интенсивностей  наступления  событий  в  популяционных системах,  позволяющих  выявлять  влияние  различных факторов  на  них;

6.)  выработкой  рекомендаций  по  статистическому  анализу данных,  распределенных  с  тяжелыми  хвостами .

Апробация  работы.  Основные  результаты  работы доложены  на  24  конференциях:  International  Heart Health  Conference  Barcelona  (Catalonia-Spain)  May-June  1995;

10th  European  Simulation  Multiconference  Budapest,  Hungary, June  2-6,  1996;  3rd  International  Conference  on  Applied  Informatics  Eger-Noszvaj,  Hungary,  August  25-28,1997;  Conference Inverse  and  ill-posed  problems  Moscow  University,  June  16-17, 1998;  Workshop  Heavy  tails  and  queues,  Eurandom,  the Netherlands,  April  1999;  International  Conferences  on  Control Problems  Moscow,SICPRO'1999,  2000,  2003;  10th  INFORMS Applied  Probability  Conference  University  of  Ulm,  July  26-28, 1999;  First  International  IEEE/Popov  Workshop  on  Internet Technologies  and  Services.  October  25-28,  1999,  Moscow;  на Всероссийской  научной  конференции  "Алгоритмический анализ  неустойчивых  задач"  Екатеринбург,  26.02-2.03.2000;

Workshop  IP  Netzplanung,  IP  Netzmanagement  und  Optimierung.  20.-21.  Juli  2000,  Universitat  Wiirzburg  (Германия):

Workshop  Mathematical  Modelling  in  Finance  and  Telecommunication  Nagu/Nauvo,Finland,  18-22  August  2000:  ECUMN 2000, Colmar, October, 2000; International Symposium Extreme

Value  Analysis  Theory  and  Practice  Leuven,  August.  2001:

IFAC  Workshop  Preprints  Adaptation  and  Learning  in  Control and  Signal  Processing  Cernobbio-Como  (Italy),  29,30,31  August 2001;  First  Teletraffic  congress,  Brazil,  Salvador,  December 2001;  International  Gnedenko  Conference,  Kyiv  June  2002;  International  Symposium  Managing  and  analyzing  data  streams:

towards  unifying  approaches  from  mathematical  statistics and  computer  science  13-15  June  2002,  Marburg,  Germany;

MASCOTS  Workshop  on  Design  and  Performance  Evaluation of 3G  Internet  Technologies  2002,  Fort  Worth,  Texas,  October 2002;  Seminar  Stochastic  Dynamical  Systems,  Sudac,  Crimea, Ukraine,  2003;  Колмогоров и современная  математика,  МГУ, июнь,  2003;  Teletraffic  congress,  Berlin,  2003;  Conference  on Asymptotic  Statistics,  Barcelona.  Bellaterra.  2003 .

а  также  на  семинарах  в  Институте  проблем  передачи информации  РАН  (1991),  Max  Planck  Institute,  Rostock, Germany  (1997),  Московском  Государственном  Университете им.М.В.Ломоносова  (1998, 2001,  2004),  Munich Technical  University  (1998,  1999),  University  (1998-2003),  Международном Институте  Eurandom,  Eindhoven,  Нидерланды  (1999),  Lund University  (Sweden)  (2000),  Wurzburg  University  (Germany) (2000),  Brunei  University,  London  (2002),  Weierstrass-Institute, Berlin  (2003),  ENTS,  Paris  (2004),  ETH,  Zurich  (2004) .

Публикации.  Результаты  работы  представлены  в  40 публикациях .

диссертации.  Диссертация  состоит  из Структура  введения,  восьми  глав,  заключения,  списка  цитируемой литературы  (188  наименований),  общим  объемом  20G страниц .

ОСНОВНОЕ  СОДЕРЖАНИЕ  РАБОТЫ

Во  введении  обосновывается  актуальность,  научная новизна  и  практическая  ценность  работы,  дается  общая характеристика  работы,  изложены  основные  результаты диссертации .

В  первой  главе  даются  определения  тяжело-хвостовых распределений,  принадлежащих к  ним субэкспоненциальных распределений  и  распределений  с  правильно  меняющимися хвостами .

Пусть  X1,  Х 2,..., Хп  -  независимые  одинаково  распределенные  ел.в.  с  ФР  F(x)  и  Мп  = max(X 1, X 2,... ,Х n ).  Известно, Gnedenko,  (1943);  Дэйвид,  (1979),  что  если  предельное распределение  максимума  Мп  существует,  то  при  некотором удобном  выборе  нормировочных  констант  ап,  bп причем  может  относиться  только  к  одному  из  трех типов (1) Определение  1.  Параметр  называется  индексом экстремальной  величины  (extreme  value  index,  EVI)  и определяет  форму  хвоста  распределения cл. в.  X.  Величина называется  хвостовым  индексом  (tail  index) .

Будем  рассматривать  только неотрицательные  сл.в .

Определение  2.  Распределение  F  (или  cл.в.  X)  называется тяжело-хвостовым,  если  для  ее  хвоста  -  функции выполняется  следующее  свойство  для любых Определение  3.  ФР  F(x)  (или  cл.  в.  X),  определенная на  называется  субэкспоненциальнойесли для  всех  п    2  выполняется Определение  4.  Распределение  F  (или cл. в.  X)  называется правильно  меняющимся  с  индексом если (2) где  l  -  некоторая  медленно  меняющаяся  функция,  т.е .

Приводятся  свойства  тяжело-хвостовых  распределений:

невыполнимость  условия  Крамера,  условия  конечности  моментов,  замкнутости  относительно  операции  свертки  и  др .

Рассматривается  задача  восстановления  ПР  по  случайной независимой  выборке  Х   =  объема  п .

п {X1...,Xn}  Обсуждаются  общие  подходы  к  оцениванию  ПР.  Дается обзор  методов для  легко-  и  тяжело-хвостовых  ПР.  Проблема состоит  в  том,  что  среди  известных  непараметрических методов  (это  гистограмма,  ядерные,  проекционные,  сплайн оценки),  которые  успешно  оценивают  финитные  и  легкохвостовые  ПР,  только  ядерные  оценки (3) где  К(х)  -  ядерная  функция,  могут  быть  адекватно использованы на бесконечном интервале. Но и они оценивают тяжело-хвостовые  ПР  плохо  для  выборок  ограниченных объемов.  Так  как  сглаживающий  параметр  h  в фиксирован,  эти  оценки  показывают  острые  пики  на точках,  соответствующих  редким  событиям  ("outliers"),  или переглаживают  основную  часть  ПР  и  не  обеспечивают правильного  порядка  убывания  на  бесконечности.  Ядерная оценка  с  переменной  шириной  окна,  Abramson  (1982) (4) и  ее  модификации  Hall,  Marron,  (1988),  Novak  (1999).  Naitu (2001),  обеспечивают  различное  сглаживание  для  различных областей  тяжело-хвостовых  ПР.  Преимущество  этих  оценок с  ядрами  4-го  порядка  заключается  в  оптимальном  порядке интегральной  среднеквадратичной  ошибки  для  ПР, имеющих  непрерывную  4-ую  производную,  с  сохранением неотрицательности.  Такой  порядок  может  быть  достигнут и  для  ядерных  оценок  с  ядром  4-го  порядка,  которые могут  принимать  отрицательные  значения .

Подход  в  оценивании  тяжело-хвостовых  ПР,  развиваемый в  диссертации,  использует  предварительное  преобразование исходных  данных  X 1,...,X n  к  новым  Y1,...,Yn  (Yi  = T(Xi))  с  помощью  некоторой  монотонно  возрастающей взаимнооднозначной  функции  трансформации  Т(х)  (Т' предполагается  непрерывной).  Оценив  ПР  g0(х)  cл.в.  Yi, можно  получить  оценку  ПР  сл.в.  Хi  по  формуле:

Полученные  оценки  с  фиксированными  параметрами сглаживания  работают  как  локально-адаптивные  оценки .

Так  как  ФР  cл.в.  Yi  равна (5) то  очевидно,  что  Т(х)  определяется  ФР  G(x)  и F(x).  "Целевая"  ФР  G(x)  может  быть  задана,  ФР F(x)  неизвестна.  Приводится  обзор  фиксированных, независящих  от  F,  трансформаций  (как  например,  ln  x или  трансформации  из  параметрического  семейства Wand,  Marron  &  Ruppert (1991);  Yang,  Marron  (1999),  направленные  на  улучшение оценивания  многомодальных,  скошенных,  не  обязательно тяжело-хвостовых  ПР)  и  адаптивных,  в  которых  вместо  F(x) используется  какая-то  параметрическая  модель.  В.  Деврой, Дьерфи,  (1988)  доказано,  что  трансформация  Т(r)  =  F(x), где  в  качестве  G(x)  берется  равномерная  на  [0,1]. ФР,  и трансформация где  G(x)  -  треугольная  ФР,  обеспечивают  соответственно для  гистограммы  и  ядерных  оценок  наименьшую  величину для  любых  распределений .

Дается  обзор  комбинированных  оценок  тяжело-хвостовых ПР,  связанных  с  идеей  раздельного  оценивания  хвостовой и  основной  части  ПР  соответственно  параметрическими  и непараметрическими  оценками  (Barron,  Gyorfi  &  van  der Meulen,  (1992);  Ks,  Vajda,  (1996)) .

Глава  завершается  обзором  методов  оценивания  хвостового индекса,  определяющего  форму  хвоста  распределения  и играющего  ключевую  роль  в  анализе  тяжело-хвостовых наблюдений.  Хвостовой  индекс  используется  для  оценивания высоких  квантилей  (т.е.  99%,  99.9%  и  т.д.),  ПР,  позволяет определить  число  существующих  моментов  и  проверить гипотезу,  является  ли  распределение  тяжело-хвостовым .

Приводятся  методы  выбора  параметра  -  количества наибольших  порядковых  статистик  к,  для  наиболее  часто используемой  оценки  Хилла:

где  -  порядковые  статистики  выборки Х1,...,  Хп .

Во  второй  главе  предлагаются  комбинированные  и непараметрические  трансформированные  оценки  тяжелохвостовых  ПР.  В  комбинированной  оценке  [14] (6) хвост  ПР  оценивается  параметрической  моделью  типа Парето где  вместо  хвостового  индекса  используется  его  оценка Хилла,  для  оценки  параметра  к  которой  применяется бутстреп-метод,  имеющий  близкую  к  минимальной среднеквадратичную  ошибку  (Hall,  (1990)).  Основная  часть ПР,  определенная  на  ограниченном  интервале  [0, Х( n - k )] (X(n-k)  -  некоторая  cл.в.,  например,  ( n — к ) - я  порядковая статистика),  представляется  непараметрической  оценкой, конечным  разложением  по  базисным  функциям

k=1,2,...:

где коэффициенты разложения  и  их число  N  вычисляются методом  структурной  минимизации  риска,  Вапник, (1979),  что  обеспечивает  минимум  оценки  среднего  риска оценивания .

Другой  подход  -  в  использовании  непараметрических трансформированных  оценок.  Основная  цель  -  получение непараметрических  оценок  ПР  с  правильным  поведением  в хвостовой  области.  Это  особенно  важно  при  сравнении  ПР нескольких  популяций,  как  в  задаче  классификации .

Приводятся  два  типа  трансформаций:  фиксированные,  не зависящие  от  исходного  распределения,  и  адаптивные к  эмпирическим  данным,  использующие  априорную информацию  о  форме  хвоста.  Исследуется  фиксированная трансформация  средствами  имитационного моделирования.  Показывается,  что  эта  трансформация обеспечивает  состоятельность  оценивания  для  ядерной оценки с ядром  Епанечникова и полиграммы  (гистограммы  с переменным окном)  в  L1  и L2- Трансформированная ядерная оценка  с  гауссовым  ядром  расходится  для  тяжело-хвостового распределения  Вейбулла.  Гарантировать  правильный порядок  убывания  ПР  на  бесконечности  фиксированные трансформации  не  могут  без  информации  о  предполагаемом поведении ФР .

Предлагается  адаптивная  трансформация  в  предположении, что  исходная  cл.в.  имеет  распределение  Парето а  целевая  cл.в.,  к  которой  производится  трансформация, треугольно  распределена  на  [0,1]  с Согласно  (5)  трансформация имеет  вид:

(7) обеспечивает  ПР  трансформированной  cл.в., непрерывную  вблизи  1  для  типичных  распределений  с тяжелыми  хвостами  (с  правильно  меняющимися  хвостами, логнормального  и  Вейбулла)  при  уклонениях  в  оценках хвостового  индекса.  Хотя  в  Деврой,  Дьерфи,  (1988)  была доказана  оптимальность  в  L1  трансформированных  ядерных оценок  с  трансформациями  к  треугольно  распределенным cл.в., вопрос  о  точности  в  L2  остается  открытым .

Исследуется  точность  трансформированных  ядерных  оценок в  смысле  интегральной  среднеквадратичной  ошибки  M I S E на  интервале

–  –  –

-  фиксированная  трансформация  и  -  неслучайный интервал,  то  трансформированной  оценки MISE  определяется  среднеквадратичной  ошибкой  MSE  оценок ПР  трансформированных  сл.в.  Для  оценок  (3)  и  (4) g   непрерывны,  соответственно .

(4) Сравниваются  точности  в  случае  применения трансформаций  (7),  логарифмической  и  к ядерным  оценкам  (3).  Фиксированные  трансформации могут  привести  к  разрывным  ПР  трансформированных сл.в.,  трудным  для  оценивания.  Для  класса  с  правильно меняющимися  хвостами  с  ПР (8) где  l(х)  медленно  меняющаяся  функция,  устанавливаются ограничения  на  применимость  фиксированных  трансформаций.  Оптимальный  порядок  для  MISE  может  быть  получен, если  g''{х)  существует.  Поэтому  он  достигается  для  любой ПР  из  класса  (8):  при  использовании  трансформации имеются  ограничения  на  логарифмической  трансформации  -  на  l(х).  Для  логарифмической  и адаптивной  трансформаций  имеются  ограничения  на интервал  на  котором  рассматривается  MISE .

Для  ядерных  трансформированных  оценок  с трансформациями  и  (7)  в  классе  (8) предлагаются  пограничные  ядра,  применяемые  на  правой границе  интервала  -  области  определения трансформированной  сл.в.  Эти  ядра  обеспечивают  порядок убывания  оценки  по  на  хвостах,  как  у  истинной  ПР .

В  третьей  главе  полученные  с  помощью  трансформаций (7) и  оценки ПР сравниваются по эффективности решения  задачи  классификации,  т.е.  но  качеству эмпирического  байесовского  классификатора Последнее  означает,  что  классификатор  относит объект  со  свойством  х  к  классу  к,  если  произведение  оценки априорной  вероятности  класса  оценки  ПР  класса и  штрафа  за  ошибку  классификации  qi(x)  максимально для  k-го  класса.  Так  как  наблюдения  в  хвостовой  области редки,  улучшение  классификации  на  хвосте  незначительно уменьшает  риск  ошибочной  классификации.  В  задачах,  где оценивание  хвоста  важно,  штрафы  qk(x)  должны  быть больше на хвосте  и  меньше в основной части  ПР, т.е .

Оценки  ПР  различной  точности  могут определять  один  классификатор  и  иметь  одну  величину риска ошибочной  классификации:

Поэтому  в  качестве  характеристики  оценок  ПР предлагается  эмпирический  риск  ошибочной  классификации эмпирического  байесовского  классификатора:

-  это  риск  байесовского  классификатора,  когда и  -  истинные  ПР  и  априорные  вероятности классов  соответственно.  Чем  точнее  оценки  ПР  тем ближе  -  риску  байесовского  классификатора (минимально  возможному).  определяется,  как  и , но при  истинных  fi(х)  и  pi(x)  вместо  оценок Доказывается,  что  асимптотические  скорости  сходимости одинаковы для полиграммы и ядерной оценки с  компактным  ядром.  Именно,  пусть  рассматриваются только  положительные  ел.в.,  a  qk(x)  удовлетворяют  условию:

(9)

–  –  –

где  с1  -  константа,  не  зависящая  от  п .

Приводятся  результаты  моделирования  но  сравнению  качества классификатора  (по риску ошибочной  классификации и  качества трансформированных ядерных  оценок  и  полиграммы,  (по  относительно для  различных  тяжело-хвостовых  распределений .

Четвертая  глава  посвящена,  оцениванию  квантилей высоких  порядков,  т.е.  решений  х  =  хр  уравнения (Ю) для  р,  близких  к  0  в  ситуации,  когда  F(x)  имеет  тяжелый хвост.  Проблема  состоит  в  том,  что  такие  квантили  могут располагаться  на  границе  или  за  пределами  разброса выборки,  где  наблюдения,  отсутствуют.  Для классический  подход  с  использованием  эмпирической  ФР Fn(x)  в  (10)  не  подходит  для  "высоких"  квантилей  также, как  и  взвешенные  эмпирические  квантильные  оценки, использующие  порядковые  статистики  выборки,  так  как

-  максимальная  порядковая статистика  выборки).  Главная  идея  всех  методов  оценивания "высоких"  квантилей  состоит  в  выборе  предварительной оценки  квантили  внутри  разброса  выборки  (это  может  быть одна  из  порядковых  статистик,  близких  к  границе)  и  затем перемещение  ее  вправо.  Очевидно,  чтобы  экстраполировать "промежуточную"  квантиль  к  некоторой  за  пределами выборки  необходимо  использовать  какую-то  модель  хвоста распределения.  Во  многих  приложениях  такая  модель недоступна.  Поэтому  используют  асимптотические  модели поведения хвостов,  основанные  на распределении  X(n).  Часто используют  обобщенное  распределение  Парето  (GPD)

–  –  –

где  -  оценки  параметров  GPD  McNeil,  (1997).  Оценка Weissman,  (1978)  получена  для  модели  хвоста  класса  Парето (т.е.  1-го  типа  из  (1)):

–  –  –

В  диссертации  предлагается  оценка  высоких  квантилей, основанная  на  оценке

-  комбинированная  оценка  (6):

Оценка  отличается  от  нормализующим  множителем отражающим  тот  факт,  что  оценка ФР  включает  не  только  параметрическую  оценку хвостовой  области  (как  в ,  но  и  оценку  основной  части распределения .

Недостатком  оценок  квантилей  является  их чувствительность  к  выбору  порога  (это,  например,  в или,  что  эквивалентно,  к  выбору Определение  к  также  необходимо  для  оценки  EVI Теоретически  оптимальное  к  должно  минимизировать среднеквадратичную  ошибку Получить  точное  выражение  для  MSE  трудно,  поэтому обычно предлагается минимизировать по к асимптотическую MSE  (когда  математическое  ожидание  берется  по предельному  распределению)  или,  точнее,  ее  бутстреноценку.  Доказывается,  что  распределение  логарифмов отношения  к  истинной квантили  асимптотически нормально.  Для  получения  асимптотики  необходимо потребовать,  следуя  Dekkers,  de  Haan,  (1989),  чтобы имело  положительный  предел  при Теорема  3.  Пусть  истинное  распределение  хвоста  -  "типа Парето"  (11), Тогда Моделирование  на  тяжело-хвостовых  распределениях показывает/  что  предложенная  квантильная  оценка  лучше, чем  для  более  высоких  квантилей  и  демонстрирует меньшее  среднеквадратичное  отклонение.  Оценка существенно  проигрывает  в  точности  из-за  необходимости оценивания  параметров  GPD  помимо  порога В  п я т о й  главе  исследуется  оценка  для  хвостового  индекса, предложенная  в  Davydov,  Paulauskas.  Rafkauskas,  (2000) .

Пусть  Х   независимые  одинаково п =  {X1,...,Xn}  распределенные  cл.в.,  распределенные  с  тяжело-хвостовой ФР  F(x).  Выборка  делится  на  l  групп  V1,...,Vl,  каждая из  которых  содержит  т  случайных  величии.  Оценка использует  независимые  отношения  вторых  наибольших порядковых  статистик  к  наибольшим  порядковым статистикам  в подгруппах наблюдений.  А именно, статистика

-  второй  наибольший  элемент  в  той  же группе  Vi,  служит  оценкой  для  Это  основано  на результате,  доказанном  в  Davydov,  Paulauskas,  Rafckauskas, (2000):  в  предположении,  что  F(x)  типа  Парето и  Эти  результаты  асимптотические  и  их применение  для  выборок  ограниченных  объемов  требует дополнительного  исследования .

Сравнивая  точность  с  другими  оценками  хвостового индекса,  можно  только  рассмотреть  асимптотические  MSE этих  оценок  для  известных  распределений.  Показано, например,  что  для  распределений  Парето  и  Коши-  MSE рассматриваемой  оценки  те  же,  что  и  у  оценки  отношения Goldie,  (1987) .

Показана  рекурсивность  оценки  zl,  важная  для  оценивания в  режиме  реального  времени,  on-line.  Под  on-line  оценкой понимается  такая  оценка,  которая  требует  только фиксированного  числа  операций  0(1)  для  пересчета  при появлении  каждого  нового  наблюдения.  Получив  следующую группу  наблюдений  можно  записать а  после  получения  дополнительных  г  групп,  каждая  с  т элементами т.е.  получается,  используя  за  0(1)  операций оценка,  полученная  по  V1,...,Vl  группам).  Оценивание  т  па каждом  шаге  неразумно,  пока мы  уверены,  что  эта  величина не  должна  сильно  измениться,  так  как  это  требует  больших затрат.  Точность  оценки  хвостового  индекса  будет  хуже при  использовании  рекурсивных  выражений,  чем  если  бы  т менялось  с  каждой  новой  порцией  наблюдений .

Параметр  оценки  т  может  определяться  из  графика из  интервала,  в  котором  функция  демонстрирует стабильность.  Для  автоматического  выбора  т  предлагается метод  бутстреп,  заключающийся  в  минимизации  по  га эмпирической  бутстреп-оценки  среднеквадратичной  ошибки Бутстреп-оценка строится  по  В  нодвыборкам  с  возвращением из  имеющейся  выборки  Хп.  Используются  подвыборки меньшего  размера  n1n,  чем  исходная выборка  Xn,  чтобы  избежать  ситуации,  когда  бутстрепоценка  смещения  (или  его  асимптотическая  форма)  равна О,  в  то  время,  как  истинное  смещение  оценки  ненулевое Hall,  (1990).  Величины  n1  и  п  могут  соотноситься  как  n1  = 0    d    1.  Подвыборка  делится  на  l1  групп:  11  = nd,  [п1/т1].  Размеры  подгрупп  m1  и  m  соотносятся,  как (12) Так  как  ФР  F(x)  неизвестна,  то  можно  минимизировать эмпирическую  оценку по  т1  и  использовать  полученное  m1,  чтобы  вычислить оптимальное  m  из  (12).  Здесь

-  эмпирические  бутстреп-оценки  смещения  и  дисперсии .

Проблема  в  том,  какое  c u d  выбирать.  Исследование относительных  смещений  и  MSE  оценки  z\  методом Монте-Карло  для  различных  распределений  и  значений c u d  показывает,  что  наилучшими  величинами  с  для фиксированного  d  =  0.5  являются  Приводятся доверительные  интервалы  для  бутстреи-оценок .

В  шестой  главе  по  выборке  Xn  =  {X1,...,Xn} независимых  одинаково  распределенных  ел. и.  с  ПР  f(x) и  ФР  F(x)  оценивается  функция  интенсивности  отказов (или  в  популяционном  анализе  функция  риска  смерти) Трудность  восстановления  h(x)  связана  с ее  различным  поведением  на  правом  конце  действительной оси  для  разных  классов  распределений.  Для  тяжелохвостовых  распределений  предлагается  использовать  подход с  предварительным  преобразованием  выборки  к  интервалу [0,1],  и  тем  самым  свести  оценивание  h{x)  к  оцениванию риска  отказов  для  финитных  распределений .

Пусть  наблюдения  ел.в.  Х   принимают  значения  на п ограниченном  интервале  [0,d],  причем [0, d].  ДЛЯ  таких  финитных  распределений  рассматривается решение  методом  регуляризации,  Тихонов,  Арсенин,  (1974), следующего  уравнения  относительно  h(x):

(13)

–  –  –

Если  используется  эмпирическая  ФР  Fn(x),  то  правая  часть может  быть  неограниченной  на [0,d), если выборка занимает интервал,  меньший  [0,d).  Пусть искомая  функция  h(t)  рассматривается  на Согласно  методу  регуляризации  регуляризованная  оценка находится  минимизацией  функционала где  - параметр регуляризации;  - стабилизирующий функционал  со  свойствами: 1)  определен  на  некотором множестве  принимает  вещественные неотрицательные  значения  и  полунепрерывен  снизу  на  D;  3) все  множества  являются  компактами в  U.  Следующая  теорема  касается  равномерной  сходимости оценок Теорема  4.  Если

-  регуляризованная  оценка  функции  h(x),  а  параметр регуляризации  определяется  так,  что тогда Для  доказательства  теоремы  доказывается  лемма .

–  –  –

при  заданном  значении  параметра  регуляризации Регуляризованное  решение  имеет  вид где  -  оператор,  сопряженный  к  Л.  Оператор  А*А самосопряжен  с  ядром Обозначим  систему  характеристических чисел  операторов  АА*  и  А*А  через...,  а  соответствующие  ортонормированные  в системы  собственных  функций  через и

–  –  –

Предположим,  что  к-я  производная  функции  h(x) существует  и  имеет  ограниченное  изменение  на Функция  h(x)  может  быть  продолжена  на  [—ха,0)  с помощью  полинома  (2/с  —  1)-й  степени  определяемого периодически  на  всю  действительную  ось.  Множество функций,  удовлетворяющих  этому  условию,  обозначим Pk.  В  классе  Рk.  доказывается  скорость  сходимости  в  L2 регуляризованных  решений .

Теорема  5.  Пусть  -  выборка сосредоточенных  на  [0, d]  независимых  одинаково распределенных  сл.в.  с  ПР f(x)  и  ФР  F(x).  Пусть характеристические, числа  операторов  АА*  и  А*А  удовлетворяют  (15).  Если  в асимптотическая  скорость  сходимости  оценки к h(x)  задается  выражением где  с  -  независящая  от  п  величина,  а  под  понимается норма в смысле Замечание  1.  Выбирая  из  (14),  т.е .

можно  заметить,  что  при  к  =  0  (случай  функции  h(x)  с ограниченным  изменением)  и  к  =  1  скорость  сходимости будет  оптимальной  в  классе Далее  рассматривается  другое  интегральное,  уравнение относительно  h(x),  используемое,  например,  при  оценивании риска  смерти  от  выделенного  заболевания  для  больных людей  средствами  полу марковских  моделей  [5,  1G,  17)  :

(16)

–  –  –

(17) а  затем  h(z)  получается  по  формуле:

Правая  часть  и  ядро  (17)  неизвестны  и оцениваются  из  эмпирических  данных:  вместо  у(х)  и  f(x) используются  гистограммы  по подразделяется  на  S  равных  отрезков  длины заменяется  эмпирической  ФР  по выборке Теорема  6.  Пусть  плотности  распределения имеют  па  [0, d]  ограниченную  производную, фиксированного  при  возрастании выполняются  соотношения:

(18)

–  –  –

Далее  рассматривается  непараметрическое  оценивание функции  отношения  рисков  смерти  и отношения  ПР  времен  жизни  q(x)  =  f(x)/g(x)  в  двух независимых  популяциях  как  некорректно  поставленная задача  решения  уравнений соответственно.  Правые  части  и  операторы  чадами неточно,  поскольку  неизвестные  ФР  обоих  популяций заменяются  их эмпирическими  ФР,  построенными  по  независимым наблюдениям  двух  cл.в.  (например,  это  времена  жизни индивидуумов  в  стресс-  и  контрольной  группах).  Для получения  оценок  применяются  метод  регуляризации  и метод  невязки  для  выбора  параметра  регуляризации, позволяющие  получить  состоятельные  оценки  неизвестных функций  по  эмпирическим  данным.  Функции  отношений между  рисками  смерти  (ПР  момента  смерти)  в группе,  находящейся  под  стрессом,  и  в  контрольной группе,  не  подверженной  стрессу,  применяются  для выявления  гормезиса  по  эмпирическим  данным.  Оценки рассматриваются для  однородной  и  неоднородной  популяций и  демонстрируются  на  модельных  данных .

В  седьмой  главе  предлагается  непараметрическая  оценка функции  восстановления  (ФВ).  При  анализе  устойчивости, планировании  и  контроле  технических  систем  таких, как  Интернет,  гарантийном  контроле  качества  приборов, важно  оценивать  среднее  число  наблюдаемых  событий до  фиксированного  момента  времени,  т.е.  ФВ.  Обычно подсчитывается  число  каких-то  событий,  например,  число вызываемых  и  перемещаемых  Web  страниц,  входящих и  выходящих  звонков,  передаваемых  пакетов  и  ячеек в  интервалах  времени  фиксированной  длины.  Для оценивания  ФВ  необходимо  иметь  несколько  реализаций процесса,  например,  числа  звонков  в  течении  нескольких дней.  Предлагаемая  оценка  использует  временные промежутки  между  событиями  только  одной  реализации процесса.  Пусть  -  ФР  независимых одинаково  распределенных  временных  интервалов  между событиями  Процессом восстановления  называется  число  событий, происшедших  до  момента  времени для  моменты  наступления событий.  ФВ  H(t)  выражается  как для  обозначает  n-кратную  свертку Стильтьеса  от  F.  Точные  выражения  для  ФВ  получены для  немногих  распределений,  например,  равномерного, экспоненциального,  Эрланга.  Имеются  различные  методы оценивания  ФВ  в  случае  известного  распределения временных  интервалов  между  событиями.  Если математическое  ожидание  и дисперсия  распределения F  существуют,  то  для  больших  времен  t  ФВ  H(t)  может быть  аппроксимирована  выражением Sgibnev,  (1981).  Выражения  неприменимы  для.малых относительно  времен t,  важных для  гарантийного контроля качества  приборов.  Предлагается  оценивать  ФВ  для  малых временных  интервалов  [0,  t]  без  знания  распределения интервалов  между  событиями  (отказами),  используя лишь  эмпирическую  выборку неотрицательных  независимых  одинаково  распределенных временных  интервалов  между  событиями  длины  l .

Чтобы  оценить  I E ( N t )  заменим  ФР  на  ее несмещенную  оценку  -  эмпирическую  ФР Здесь наблюдения  случайной  величины  -  целая  часть  числа r.  Предложена  следующая  оценка  ФВ  H(t)  по  выборкам независимых  наблюдений  времен  появления  событий (19)

–  –  –

позволяет  существенно  сократить  объем  вычислений  по сравнению  с  известной  оценкой  Frees,  (1986), (20) использующей  U-статистику

–  –  –

является  несмещенной оценкой  с  минимальной  дисперсией.  В  предлагаемой оценке  используется  несмещенная,  но  более  грубая  в смысле  дисперсии  оценка  Неточность  оценивания компенсируется  выбором  к  по  выборке  наблюдений  и использованием  данных  больших  объемов.  Доказывается равномерная  сходимость  оценки  к истинной  ФВ для легко-  и тяжело-хвостовых  распределений  времен  между  событиями .

Теорема  8.  Пусть  последовательность независимых  одинаково  распределенных  случайных  величин, Предположим,  что а  параметр  к  удовлетворяет  условию (21) Тогда выполняется Скорость  равномерной  сходимости  может быть доказана для класса  распределений  интервалов  между  отказами  такого, что:

для  любого  и  некоторого включает,  например,  экспоненциальное  распределение  (и следовательно,  теорема  9  покрывает  пуассоновский  процесс) и  легко-хвостовое  распределение  Вейбулла  с  параметром формы  больше  1 .

Теорема  9.  Если  выборка  случайных независимых  наблюдений  с  ФР и  параметр

–  –  –

где  c1  -  константа,  независящая  от  l .

Отсюда  для  ФВ  можно  построить  доверительный  интервал .

Следствие  1.  В  предположениях  теоремы  9,  по  меньшей мере  с  вероятностью  верны  следующие неравенства:

(22) где Интервалы  между  отказами  часто  распределены с  тяжелыми  хвостами.  Для  этих  распределений можно  аппроксимировать  для  небольших  t хвостом  стандартного  нормального  распределения,  т.е .

для  любого  выбора  последовательности  когда Граничные  последовательности  cn  предложены  для различных  тяжело-хвостовых  распределений,  см.  Mikosch, Nagaev,  (1998) .

Теорема  10.  Если  последовательность одинаково  распределенных  независимых  случайных  величин с  тяжело-хвостовой  ФР и  параметр  к  удовлетворяет  (21),  то  выполняется Доказывается  скорость  равномерной  сходимости  для  класса распределений  с  правильно  меняющимися  хвостами  (2) .

Медленно  меняющаяся  функция  l(х)  может  быть представлена  в  форме для  некоторого  x0    0,  где  измеримая  неотрицательная функция  такая,  что непрерывная функция, В теореме  11  предполагается,  что  с(х)  монотонно убивающая или  возрастающая  функция,  а  неположительная функция .

Теорема  11.  Пусть  последовательность одинаково  распределенных  независимых  случайных  величин, распределенных  с  правильно  меняющимися  хвостами,  т.е .

хвост  имеет  вид  Параметр где  c1  -  константа,  независящая  от  l .

Следствие  2.  В  предположениях  теоремы  11  и  при по меньшей мере  с  вероятностью верно  неравенство  (22),  где Теоремы  определяют  величины  к  как  функции  объема выборки  l.  На  практике  важно  находить  к  из  данных .

Для  этого  предлагается  выбор  к  по  методу  бутстрен,  что обеспечивает  минимум  бутстрен-оценки  среднеквадратичной ошибки оценивания, а также из  графика зависимости  оценки ФВ  от  k,  когда  выбирается  минимальное  k,  соответствующее интервалу  постоянства  на  графике.  Точность  оценки  (19) сравнивается  с  оценкой  Frees  (20)  методом  Монте  Карло для различных  распределений.  Выбор  к  из  графика  наряду  с вычислительной  простотой  обеспечивает  меньшие  смещение и  среднеквадратичную  ошибку  для  больших  Т  и  объемов выборок,  чем  у  бутстреп-метода.  Среднеквадратичная ошибка  становится  меньше,  чем  у  оценки  Frees  уже при  увеличении: выборки  с  30  точек  до  100 .

моделью  типа  Парето,  где  хвостовой  индекс  -  параметр формы  хвоста,  оценивается  методом  Хилла.  Параметр метода  Хилла  -  число  наибольших  порядковых  статистик, определяется  методом  бутстрен,  что  обеспечивает  близкую к  минимальной  среднеквадратичную  ошибку  оценивания хвостового  индекса.  Оценка  предназначена,  прежде  всего .

для  оценивания  многомодальных  тяжело-хвостовых  ПР .

3.  Разработаны  методы  оценивания  тяжело-хвостовых  ПP при  помощи  трансформаций.  Предложена  адаптивная трансформация  от  Парето-распределенной  сл.в.  к сл.  в.  с  треугольным  распределением,  обеспечивающая непрерывную  вблизи  1  ПР  трансформированной  сл.в., удобную  для  оценивания,  для  разных  типов  хвостов  и при  уклонениях  в  оценках  хвостового  индекса.  В  классе распределений  с  правильно  меняющимися  хвостами  для адаптивной,  логарифмической  и  arctan  трансформаций получены  ограничения  для  получения  наименьшей интегральной  среднеквадратичной  ошибки.  Для  улучшения оценивания  хвостовой  области  ПР  ядерными  оценками предложены  пограничные  ядра .

4.  Предложено  использовать  трансформированные  ядерные оценки  и  полиграмму  (гистограмму  с  переменным окном)  для  построения  эмпирических  байесовских классификаторов  в  случае,  когда  распределения  классов тяжело-хвостовые.  В  качестве  характеристики  оценки тяжело-хвостовой  ПР  предлагается  эмпирический  риск ошибочной  классификации  эмпирическим  байесовским классификатором.  Доказывается,  что  скорость  сходимости этого  риска к байесовскому  риску  (минимально  возможному) одинакова  для  полиграммы  и  ядерной  оценки.  Для адаптивной  и  arctan  трансформаций  качество  оценок ПР  и  классификаторов  для  разных  оценок  ПР  сравнивается по эмпирическому  риску и риску ошибочной  классификации, соответственно,  методом  Монте-Карло .

5.  Разработана  оценка  квантилей  высоких  порядков  для распределений  с  тяжелыми  хвостами,  более  точная,  чем известные  методы:  РОТ-  метод  и  оценка  Вайссмана .

Доказана  асимптотическая  нормальность  логарифма отношения  этой  оценки  (и  оценки  Вайссмана)  к  истинной квантили .

6:  Предложен  и  исследован  метод  бутстреп  для  оценивания параметра  оценки  хвостового  индекса,  предложенной  в Davydov,  Paulauskas,  Ra6kauskas,  (2000),  по  конечным выборкам.  Установлено  рекурентное  свойство  оценки  для анализа  тяжело-хвостовых  наблюдений  в  реальном  времени .

7.  Трансформационный  подход  распространен  на  оценивание  функции  интенсивностей  отказов  для  тяжело-хвостовых распределений.  Это  позволяет  свести  оценивание  к  случаю финитных  распределений.  Предложены  оценки  функции интенсивностей  отказов  для  финитных  распределений методом  стохастической  регуляризации  Тихонова  из  интегральных  уравнений.  Доказываются  теоретические  свойства регуляризованных  оценок:  равномерная  сходимость, скорость  сходимости  в  пространстве  L2  в  случае ограниченного  изменения  k-ой  производной  функции риска смерти.  Получены  оценки  функций  отношения  рисков смерти  и  ПР  продолжительностей  жизни  в  двух  популяциях как  решения  интегральных  уравнений  с  неточно  заданной правой  частью  и  оператором  методом  регуляризации .

Оценки  применяются  для  выявления  эффекта  гормезиса  в популяции .

8.  Разработана  непараметрическая  оценка  функции восстановления  для  ограниченных  временных  интервалов [0, t]  по  независимым  наблюдениям  временных  промежутков между  событиями  с  неизвестной  ПР.  Доказывается равномерная  сходимость  оценки  почти  наверное  к  истинной ФВ  для  легко-  и  тяжело-хвостовых  распределений временных  промежутков  между  событиями.  Для распределений  с  экспоненциальными  и  с  правильно меняющимися  хвостами  доказана  скорость  равномерной сходимости.  Новая  оценка  позволяет  значительно  сократить объем вычислений  по сравнению с известной  оценкой  Фриза, и добиться лучшего  среднеквадратичного  отклонения  за счет незначительного  увеличения  объема  выборки.  Предложен выбор  параметра  предлагаемой  оценки  по  конечным выборкам  методом  бутстрен  и  из  графика  зависимости предлагаемой  оценки  ФВ  от  этого  параметра .

9.  Предложенные  в  диссертации  оценки  применены  к анализу  реальных  данных  измерений  в  Интернете .

Список  основных  опубликованных  работ  по  теме диссертации 1.  Маркович.  Н.М.  (1989).  Экспериментальный  анализ непараметрических  оценок  плотности  вероятности  и  методов их  сглаживания.  Автоматика  и  телемеханика.  7,  с. 110-119;

2.  Вапник,  В.Н.,  Маркович,  Н.М.,  Стефанюк,  А.Р.  (1992).  О скорости  сходимости  в  Li  проекционной  оценки  плотности вероятности.  Автоматика  и  телемеханика,  5,  с.64-74 .

3.  Маркович,  Н.М.,  Михальский,  А.И.  (1995) .

Оценки  показателей  здоровья  по  данным  выявленной заболеваемости.  Автоматика  и  телемеханика  7,  с.  151-161 .

4.  Маркович,  Н.М.  (1998).  Регуляризация  некоторых линейных  интегральных уравнений  популяционного  анализа .

Автоматика  и  телемеханика  3,  с.  139-155 .

о 5.  Маркович,  Н.М.,  Михальский,  А.И.,  Моргенштерн, В.  (1998).  Оценивание  эпидемиологических  показателей заболеваемости  по  косвенным  данным.  Автоматика  и телемеханика  6,  с.  153-162 .

6.  Маркович,  Н.М.  (2000).  Выявление  эффекта  гормезиса по  эмпирическим  данным  как  некорректно  поставленная задача.  Автоматика  и  телемеханика.  1,  с.133-143 .

7.  Маркович,  Н.М.  (2002).  Трансформированные  оценки плотностей  распределения  с  тяжелыми  хвостами  и классификация.  Автоматика  и  телемеханика.  4,  с.109-123 .

8.  Маркович,  Н.М.  (2002).  Оценивание  квантилей  высоких порядков  для  распределений  с  тяжелыми  хвостами .

Автоматика  и  телемеханика.  8,  с.63-79 .

9.  Krieger,  U.R.,  Markovitch,  N.M.,  Vicari  N.  (2001).  Analysis of  World  Wide  Web  traffic  by  nonparametric  estimation techniques.  In  K.  Guto  et  al.,  eds.,  Performance  and  QoS  of Next  Generation  Networking,  Springer,  London,  pp.  67-83 .

10.  Markovitch,  N.M.,  Krieger  U.R.  (2000).  Nonparametric estimation  of  long-tailed  density  functions  and  its  application to  the  analysis  of  World  Wide  Web  traffic.  Performance Evaluation,  42(2-3),  pp.  205-222 .

11.  Markovich,  N.M.,  Krieger,  U.R.  (2001).  Retransformed heavy-tailed  density  estimates  and  classification  problem.  IF А С Workshop  Preprints  Adaptation  and  Learning  in  Control  and Signal  Processing,  Cernobbio-Como  (Italy),  29,30,31  August, pp.  187-192 .

12.  Markovitch,  N.M.,  Krieger,  U.R.  (2001).  The  estimation  of heavy-tailed  probability  density  functions  and  their  mixtures .

In:  J.Moreira  de  Souza  et  al.,  eds.,  Teletraffic  engineering  in the  Internet  Era,  Teletraffic  Science  and  Engineering,  vol.4, Elsevier,  Amsterdam,  pp.  1113-1126 .

13.  Markovitch  N.M.,  Krieger,  U.R..  (2002).  Estimating  Basic Characterestics  of  Arrival  Processes  in  Telecommunication Network  by  Empirical  Data.  Telecommunication  Systems .

20:1,2,  pp.  11-31 .

14. Markovitch, N.M. and Krieger, U.R. (2002). The estimation of heavy-tailed probability density functions, their mixtures and quantiles. Computer Networks, Vol. 40, Issue 3, pp. 459-47-1 .

15. Maiboroda R.E., Markovich N.M. (2004). Estimation of heavy-tailed probability density function with application to Web data. Computational Statistics, 4 .

16. Markovich N.M. (1995). Mathematical Concepts, In the book: Morgenstern, W., Ivanov, V.K., Michalski, A.I., Tsyb, A.F., Schettler, G., eds., Mathematical modelling with Chernobyl Registry Data, Springer, Heidelberg, pp. 65-110 .

17. Markovich, N.M., Morgenstern, W., Michalski, A.I. (199G) .

Semi-Markov identification based on the small samples approach. In Proceedings of the 1996 10th European Simulation Multiconference (Budapest, Hungary, June 2-G), pp. 791-795 .

18. Markovitch, N.M., Krieger, U.R. (1999). Estimating Basic:

Characteristics of Arrival Processes in Advanced PacketSwitched Networks by Empirical Data, in: Proceedings of First IEEE/Popov Workshop on Internet Technologies and Services, October 25-28 Moscow, Russia, pp. 70-78 .

19. Markovitch, N.M. (1999). Nonparametric estimation of probability density: the restoration of heavy-tailed distribution .

Proceedings of the International Conference on Control Problems, Moscow, June 29 - July 2, vol.2, pp. 66-67 .

20. Markovitch, N.M. (1999). Nonparametric probability density and hazard rate estimation by the regularization method.Proceedings of the 10th INFORMS Applied Probability Conference University, Ulm, July 26-28, p. 228 .

21. Markovitch, N.M., Krieger, U.R. (2000). Estimation Of The Renewal Function: A Bayesian Approach, hi Proceedings ECUMN 2000, Colrnar, October, pp. 293-300 .

22. Markovitch, N.M., Krieger, U.R. (2000). Nonparametric estimation of long-tailed density functions and its application

–  –  –

p.48 .

24.  Маркович,  Н.М.  (2001).  Об  одной  оценке  функции восстановления  по  эмпирическим  данным.  Тезисы  докладов Всероссийской  научной  конференции,  Екатеринбург,  26 февраля-2  марта,  с.45-46 .

25.  Markovich,  N.M.  (2001).  Nonparametric  estimation  of  a heavy-tailed  probability  density  function.  In  Proceedings  of International  Symposium  Extreme  Value  Analysis  Theory  and Practice,  Leuven,  August,  p.54 .

26.  Markovitch,  N.M.  (2002).  High  quantile  estimation  for heavy-tailed  distributions.  In  Proceedings  of  the  International Gnedenko  Conference,  Kyiv,  June  3-7,  p.73 .

27.  Markovitch,  N.M.  (2002).  Measurements  analysis  in  the case  of  heavy-tailed  distributions.  Proceeding  of  International Symposium  "Managing  and  analyzing  data  streams:  towards unifying  approaches  from  mathematical  statistics  and  computer science'  13-15  June,  Marburg  Germany,  pp.37-38 .

28.  Markovitch,  N.M.,  Krieger,  U.R.  (2002).  Statistical  characterization of mobile  user  behavior and  its  application  to  resource management  in  next  generation  networks.  In  Proceedings  of  (ha MASCOTS  Workshop  on  Design  and  Performance  Evaluation of 3G  Internet  Technologies  2002,  Fort  Worth,  Texas,  October, pp.23-40.  ' 29.  Markovitch  N.M.  (2003).  Estimation  principles  of  heavytailed  distribution  density  function.  In  Proceedings  of  the  II  4* International  Conference  "System  Identification  and  Control Problems"SICPRO'2003.  Moscow,  Russia,  29-31  January, pp.2122-2124 .

30.  Markovitch  N,M-  (2003).  Retransformed  nonparametric density  estimators  with  reduced  bias.  Proceedings  of  the  International  Summer  Seminar  Stochastic  Dynamical  Systems,  May 30- June 7, Sudac, Crimea, Ukraine, p.54 .

31.  Markovitch  N.M.  (2003).  Accuracy  of retransformed  kernel estimators  for  heavy-tailed  densities.  Proceedings  of  the  International Conference Kolmogorov and Contemporary Mathematics, June, Moscow, p.494 .

32.  Markovitch N.M., U.R.Krieger.  (2003).  On-Lino Estimation of Heavy-Tailed  Traffic  Characteristics  in  Web  Data  Mining.  In Proceedings of 18th International Teletraffic Congress, Berlin, Germany,  31  August - 5 September, vol.  5a, pp.571-580 .

33. Markovich N.M.  (2003).  Estimation of heavy-tailed densities by  a transformation.  Proceedings  of the  Barcelona  Conference on  Asymptotic  Statistics,  2-6  September,  Barcelona,  Bellaterra, pp.35-36 .

34.  Markovich  N.M.  (2004).  Nonparametric  renewal  function  estimation  and  smoothing  by  empirical'  data.  Preprint Forschungsinstitut fur mathematik ETH,  Zurich.



Похожие работы:

«Пузевич Николай Игнатьевич Военная перестройка промышленности Восточной Сибири (1939-1943 гг.) Автореферат диссертации на соискание ученой степени кандидата исторических наук Иркутск, 2004 Работа выполнена...»

«Масла моторные для дизельных двигателей РПБ № 84035624.02.37988 стр. 3 по ГОСТ 12337-84 Действителен до 08.05.2020 г. из 16 1 Идентификация химической продукции и сведения о производителе и/или поставщике 1.1 Ид...»

«МЕТОДЫ НЕЙРОСЕТЕВОГО И МУЛЬТИАГЕНТНОГО УПРАВЛЕНИЯ В РОБОТОТЕХНИКЕ И МЕХАТРОНИКЕ А.В.Тимофеев Санкт-Петербургский государственный университет аэрокосмического приборостроения Санкт-Петербургский институт информатики и автоматизации РАН, ВВЕДЕНИЕ Развитие машиностроения, авиац...»

«1504838 шт Лидер в технологии насосов W '•.|Ш Е ; g. Р^ ц ^_ 1 н — Q HANDOLPUMPS П риветствие Г е н е р а л ь н о го директора 19т I IAND O L PUMPS LIMITED лидирующая компания, специализирующаяся на производстве различных насосов, 2000 многоступенчатых насосов высокого давления, для Электростанций, Нефтегазовой промышленности и дл...»

«Ф ЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ТЕХНИЧЕСКО М У РЕГУЛИРОВАНИЮ И МЕТРОЛОГИИ НАЦИОНАЛЬНЫЙ ГОСТ Р и со СТАНДАРТ 1 6 0 6 3 -1 5 РОССИЙСКОЙ ФЕДЕРАЦИИ Вибрация МЕТОДЫ КАЛИБРОВКИ ДАТЧИКОВ ВИБРАЦИИ И УДАРА Часть 15 Первичная калибровка датчиков углово...»

«ORIGINALKEY.RU ADVANCED CODE EVO Профессиональный прибор для копирования и генерирования транспондеров, бесконтактных меток, брелоков оригинальных ключей. Спасибо что приобрели этот прибор. Желаем Вам успехов в работе. До начала использования...»

«Министерство образования и науки Российской Федерации Федеральное агентство по образованию Санкт-Петербургский государственный университет информационных технологий, механики и оптики Методические указания к лаб...»

«Членам Научно-технического совета по развитию промышленности строительных материалов (изделий) и строительных конструкций при Министерстве промышленности и торговли Российской Федерации (по списку рассылки) В Департамент металлургии и материалов поступило письмо Минтранс России от 5 авгу...»







 
2019 www.librus.dobrota.biz - «Бесплатная электронная библиотека - собрание публикаций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.