Практическая польза от Теории Экстремальных Значений? EVT

Недавно потребовалось установить экспоненту Парето хвоста распределения вероятностей. И чтобы посмотреть насколько хорошо методы EVT работают, я сделал простой пример.
Пример: 30 сэмплов StudentT(df=4), каждый размером 20000. Определить экспоненту хвоста используя методы: Хилла, GPD, LeastSquares, CDF LogLog PLot.
Результаты ужасны: точность всех методов плюс минус километр. Я не вижу ни малейшего смысла в EVT поскольку вручную по линейке установить наклон линии на ЛогЛог Графике CDF оказывается не хуже (мне кажется даже лучше) чем специализированные методы EVT.
На графике — y — найденная экспонента хвоста, каждая линия это отдельный сэмпл, цвет метод определения, х — гиперпараметр (число точек в хвосте распределения которые использовались в расчетах). Верный результат это горизонтальная линия y=4, вместо этого мы наблюдаем, в зависимости от метода — систематические ошибки, либо дикий хаос.

Даже, мне кажется с линейкой предпочтительней, график лог лог. Поскольку ты боль менее визуально и интуитивно понимаешь что делаешь.

А когда ты ищешь на графике Хила «участок когда график стабилизировался» — ну и как его там найти (см картинку ниже, черные линии)? Выбирай любой кусок графика который нравится (отмечены желтым кружком), от экспоненты 3 до 4 — и на любом значении этого интервала график Хила выглядит «стабильный», выбирай любое значение которое нравится. И получается смысл тогда в этом методе Хила? Я и с линейкой на лог лог графике установлю что экспонента где то между 3 и 4, и при этом еще осмысленно будет видно что это значит, чем абстрактно выискывать некий стабильный участок на графике Хилла.

Ну а GPT (Peak over Treschold) — это MLE фиттинг хвоста, и это должен быть самый точный метод. А он дает наихудший результат из всех, полный хаос, определяя экспоненту хвоста от 2 до 8, причем совершенно нестабильный и дико прыгает, малейшее изменение гиперпараметров и вместо результата 3 получаешь 6 — это как вообще?

Наилучший резульат дал MLE фиттинг полного распределения StudentT (красные линии на первом графике). Но, это не в счет. Потому что здесь простой пример, где распределение симметрично, и мы точно знаем что это StudentT, это не будет также хорошо работать в реальности, если распределение перекошено например и имеет разные экспоненты левого и правого хвостов. Поэтому красные линии, они не считаются.
Вывод:

Я не понимаю какой смысл в EVT если она дает такие результаты? Получается лог лог график и линейка — проще, наглядне, надежней и даже точнее? Есть еще пара методов Pickands Estimator который вроде чуть лучше чем Hill но уже влом смотреть, едва ли там сильно лучше.
Код расчетов на Python и R quant.stackexchange.com/questions/83839/evt-how-to-estimate-tail-exponent-with-good-precision-hill-gpt-evt-leastsqu

парето распределение талеб трейдинг

Alex Craft

Сидней

2 052

с 9 сентября 2021

10 Комментариев

svgr
05 августа 2025, 10:49
А с чего вывод, что они должны лучше результат давать, чем практичное 'ни вашим, ни нашим'?
Методы ж эти возникли для каких-то конкретных достаточно жёстких условий. Которые на рынке не соблюдаются.
Этак просто можно было б и будущее предсказывать.
0
- Alex Craft
  05 августа 2025, 11:01
  svgr, мне казалось — если какие то расчеты делают — вместо того чтобы просто линейку приложить к графику, наверно потому что это как то лучше и точнее.
  
  Вроде для рынков EVT как раз таки соблюдаются, и она именно для таких задач и создана. Мало данных, много неизвестного. Уровень наводнений для плотин, водостоков в горных регионах, там тоже редкие и большие события по которым почти нет данных и т.п.
  0
  - svgr
    05 августа 2025, 11:10
    Alex Craft, так надо конкретно убедиться, что для данного набора данных все методы из EVT можно применять. То есть произвести статистические расчёты.
    0
    - Alex Craft
      05 августа 2025, 12:07
      svgr, насколько я понимаю сэмпл StudentT(df=4) удовлетворяет требованиям EVT GPD Peak Over Threshold.
      
      а) Хвост парето да, б) достаточно большой параметр u трешхолд — да, симуляция перебирает разные значения, для этого параметра в) стационарность да г) независимость да д) достаточно данных — вроде да, я использовал сэмпл 20к и он дает несколько сотен значений в хвосте, вроде это считается достаточным.
      
      Ошибка в использовании метода — я сделал 2мя способами, с нуля на питоне и используя R библиотеку, оба дают одно и тоже.
      
      0
      - svgr
        05 августа 2025, 12:36
        Alex Craft, чтобы в это погрузиться и отвечать по существу нужно немало времени потратить. Если Вы считаете, что всё сделали по методике, а результат неудовлетворительный, то нужно будет экспериментировать с изменениями и обдумывать метод ещё месяцев несколько. Просветление будет приходить по шагам.
        Заранее могу сказать, что есть ошибки в понимании метода и его применении (выборе параметров, их значимости и т.п.). Другого ничего быть не может.
        0
        Alex Craft
        05 августа 2025, 13:15
        svgr, возможно. Но тогда получается это опасный метод. Где корректность/ошибки не очевидны даже в простом примере, где все точно известно.
        0
        svgr
        05 августа 2025, 14:04
        Alex Craft, дело не в опасности, а в понимании как он построен. Вот питон — обёртка над много чем, им пользуются, часто не задумываясь. А нужно, если ты исследователь, знать до деталей что под капотом. Чтобы знать область применимости готового и в случае необходимости спуститься на уровень ниже в детализации, чтобы уметь менять и создать новый пакет под новую задачу. Когда имеющиеся неправильно работают.
        0
        Alex Craft
        05 августа 2025, 16:56
        svgr, хмм, я вроде понимаю. GPD это когда мы моделируем хвост отдельно.
        
        Отрезаем тело распределения
        
        y = x-u | x>u
        
        И у нас получается новая случ переменная, которая имеет распределение парето GPD(location=0, scale, alpha)
        
        И затем делаем фиттинг scale и alpha через MLE оптимизацию.
        
        По идее это всего 2 параметра и должно хорошо и быстро оптимизироваться.
        
        P.S. на всяк случай проверю — добавлю несколько начальных значений, может он минимум не может найти… но едва ли
        0
        svgr
        05 августа 2025, 19:14
        Alex Craft, ну вот, надо параметрами добиться сначала, чтобы стало похоже на реальность (горизонтальную линию?), а потом посмотреть как эти параметры получаются. Возможно, что стандартной процедурой для метода они не получатся. О чём я выше написал. Надо будет как-то видоизменять стандартный метод, чтобы его оставить для дальнейшего использования.
        0
        Alex Craft
        05 августа 2025, 21:29
        svgr, нас интересует только alpha, он показан на оси y. В идеале, если индикатор стабильный, при изменении гиперпараметра u, альфа будет постоянным, и линия горизонтальной.
        0

Читайте на SMART-LAB:

📅 Как ведёт себя рынок в зимние месяцы

Декабрь, январь и февраль на российском фондовом рынке традиционно демонстрируют яркую сезонность. 🔹 Декабрь Один из лучших месяцев для российского рынка. Из 23 последних лет, в...

ВТБ Мои Инвестиции

13.02.2026

Рекомендации для эмитентов и переход к гибридным ЦФА — опыт Селигдара

Приняли участие в Alfa Talk «ЦФА: новая архитектура рынка», который был посвящен трансформации регулирования цифровых финансовых активов (ЦФА) и криптовалют. Обсудили и поделились...

ПАО СЕЛИГДАР

13.02.2026

Ключевые тезисы по итогам раскрытия финансовых результатов за 2025 г. и ожидания на 2026

☝️На днях мы опубликовали финансовые результаты по итогам 2025 г., а также провели коммуникацию с участниками рынка, в рамках которой обсудили наши текущие результаты и ситуацию в российской...

Норникель

13.02.2026

Мой Рюкзак #63: ВТБ - дальше без меня, меняем на более крепкий банк, дивидендные отсечки близко

Февраль продолжает радовать стоимостных инвесторов, все по стратегии, которую описывал в конце прошлого года Прошлый пост тут — smart-lab.ru/mobile/topic/1260904/  Было 25,9 млн...