ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ
ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ
«НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ
«ВЫСШАЯ ШКОЛА ЭКОНОМИКИ»
Московский институт электроники и математики
Кухарева Мария Эдуардовна
СТАТИСТИЧЕСКИЙ АНАЛИЗ ВРЕМЕННЫХ РЯДОВ ФОРЕКС МЕТОДАМИ ТЕОРИИ СЛУЧАЙНЫХ БЛУЖДАНИЙ
Выпускная квалификационная работа – магистерская диссертация
по направлению подготовки 01.04.02 «Прикладная математика и информатика»
студента образовательной программы магистратуры
«Математические методы моделирования и компьютерные технологии»
Студент
___________________
М.Э. Кухарева
Рецензент
звание, должность
___________________
О.В. Вальба, доцент
Руководитель
звание, должность
___________________
М.В. Тамм, доцент
Москва 2017
АННОТАЦИЯ
Данная работа посвящена исследованию временных рядов рынка FOREX с помощью методов случайного блуждания.
Основная задача работы – проверить, что распределение плотности вероятностей временного ряда рынка FOREX, при увеличении дельты разности цен приводится к распределению Гаусса.
В процессе работы исследовались временные ряды, на примере пары валют Евро-Доллар.
Проверка была реализована при помощи программных продуктов MS Excel, SQL Server 14 и Origin 8.
Работа содержит 39 страниц текста и 34 рисунка.
ABSTRACT
This work is devoted to the study of time series of the FOREX market with the help of random walk methods.
The main task of the work - to check that the distribution of the probability density of the time series of the FOREX market, with an increase in the price difference between the delta is a Gaussian distribution.
In the process of work has investigated the time series of the FOREX market, for example the currency pair Euro-Dollar.
Test was realized with the help of software MS Excel, SQL Server14 and Origin 8.
The explanatory slip contains 39 pages and 34 pictures
ОГЛАВЛЕНИЕ
Введение. 5
Глава 1. Обзор литературы. 6
1.1. Уравнение диффузии (основные понятия). 6
1.2. Распределение вероятностей. 8
1.3. Распределение длины шага. 11
1.4. Коэффициент эксцесса. 17
Глава 2. Статистический анализ временных рядов Forex. 19
2.1. Сбор и подготовка данных. 19
2.2. Реализация приращений. 21
2.3. Демонстрация приближения данных к распределению Гаусса. 24
2.4. Нахождение коэффициента эксцесса. 35
Заключение 38
Список литературы 39
Введение.
В рамках данной работы проведем анализ зависимости вида распределения плотности вероятности, от временного интервала разности цен временного ряда евро-доллар за 2004 год. В частности, мы покажем, что распределение плотности вероятности временного ряда приближается к распределению Гаусса на больших временных интервалах. Для проверки данного утверждения необходимо произвести расчеты для определения математического ожидания, среднеквадратического отклонения, нормального распределения и другие. Графически отобразим зависимость нормального распределения и распределения нормированного количества уникальных значений разности цен. Наглядно убедимся в корректности утверждения. Для количественной оценки близости распределения плотности к распределению Гаусса используем коэффициент эксцесса.
Обзор литературы.
Уравнение диффузии (основные понятия).
Случайные блуждания – это траектории, чьи последовательные шаги направлены в случайных направлениях. Они часто возникают в статистической механике: как суммы флуктуирующих величин, как траектории частиц, претерпевающих случайные столкновения, как формы длинных связанных цепей, например полимеров. В этих системах можно отметить два типа возникающего крупномасштабного поведения:
Отдельное случайное блуждание, если оно содержит достаточно большое количество шагов, становится фрактальным или масштабно инвариантным.
Распределение вероятности для положения конечной точки блуждания подчиняется простому континуальному закону – уравнению диффузии.
Данные свойства являются универсальными и не зависят от микроскопических деталей блуждания ^([3]).
Рассмотрим подробнее уравнение диффузии.
В непрерывном пределе, когда пространственные и временные масштабы велики, в ансамбле нерегулярных, изломанных случайных блужданий возникает простое коллективное поведение. Эволюция этих поведений описывается уравнением диффузии:
?P/?t=D (?^2 P)/(?x^2 ) , (1)
где D – коэффициент диффузии.
Уравнение (1) описывает изменение со временем плотности вероятности P(x,t) и непрерывный предел несмещенного случайного блуждания.
Prob[частица ?(x,x+dx)]?P(x,t)dx (2)
Необходимо задать начальные условия, для которых: P(x,0)=?(x), что соответствует блужданию из начала координат.
Положим, что случайное блуждание не имеет сноса, тогда среднее смещение будет равно:
?x???_(-?)^??xP(x,t)dx=0 (3)
?x^2 ???_(-?)^???x^2 P(x,t)dx? (4)
Чтобы показать, что плотность вероятности имеет распределение Гаусса, воспользуемся методом анализа размерности и свойством масштабной инвариантности.
1) Анализ размерности.
Среднеквадратичное отклонение должно зависеть от коэффициента диффузии D и от времени t. Для того чтобы показать эту зависимость воспользуемся анализом размерности.
Обозначим через L – единицы длины, а T – единицы времени, то из (1) размерности ?x^2 ?, D и t будут равны:
[?x^2 ?]=L^2, [D]=L^2/T, [t]=T. (5)
При комбинировании данных параметров можно получить только само среднеквадратичное отклонение и произведение Dt. Таким образом
?x^2 ?=C?Dt , (6)
где C – численная константа.
Полученное уравнение (6) является одним из центральных результатов неравновесной статистической физики. Чтобы определить численную константу С, необходимо домножить (1) на x^2 и проинтегрировать по пространственной координате. Получим:
d/dt ?x^2 ?=2D
И следовательно С = 2 ^([5]).
2) Масштабная инвариантность (Скейлинг).
Применим анализ размерности к плотности вероятности P(x,t|D), где зависимость от D указана явно, следовательно плотность существенно зависит от коэффициента диффузии. Так как [P]=L^(-1), то величина ?Dt P(x,t|D) – безразмерна и может зависеть только от безмерных величин. Из переменных x, t, D можно составить только одну безмерную величину x/?Dt. Следовательно общая зависимость плотности от основных переменных, которая допустима при анализе размерностей, выглядит следующим образом:
P(x,t)=1/?Dt ?(?), (7)
где ? – скейлингова переменная и ?= x/?Dt.
Теперь плотность зависит от единственной переменной ?, а не от двух основных переменных x и t. Данное свойство упрощает анализ типичных уравнений в частных производных, которые описывают неравновесные системы. Уравнение (7) называют скайлинговым анзацем. Нахождение правильного скейлингового анзаца часто является большим шагом на пути к решению. При подстановке (7) в уравнение диффузии (1), уравнение в частных производных к обычному дифференциальному уравнению
?2??^''+??^'+?=0.
Проинтегрировав дважды и использую симметрию (?^' (0)=0) и нормировку, получим:
?=?(4?)?^(-1/2) e^(-?^2/4),
что приводит к распределению Гаусса:
P(x,t)=1/?4?Dt exp?[-x^2/4Dt]. (8)
Таким образом плотность вероятности имеет распределение Гаусса ^([1]).
Распределение вероятностей.
Рассмотрим случайное блуждание в дискретном времени на одномерной решетке. На каждом шаге частица смещается на единичную длину вправо с вероятностью p или влево с вероятностью q=1-p. Вероятность P_N (x) нахождения частицы в узле x через N шагов подчиняется рекурсии:
P_N (x)=pP_(N-1) (x-1)+qP_(N-1) (x+1) (9)
Заметим, что вероятность П_N (r) того, что блуждание сделает r шагов вправо и N-r шагов влево, имеет биноминальный вид:
П_N (r)=(?(N@r)) p^r q^(N-r). (10)
Биноминальный коэффициент (?(N@r)) учитывает число различных сочетаний шагов вправо и влево, включающих r шагов вправо, тогда как множитель p^r q^(N-r)- это вероятность одного такого блуждания. Так как рассматривается случайное блуждание из начала координат, то общее смещение будет x=2r-N.
Воспользуемся приближением Стирлинга для больших N, чтобы упростить биноминальное распределение. Получим, что P_N (x)=П_N [r=(x+N)/2]|dr/dx|, превращается в
P_N (x)?1/?8?Npq e^(?-[x-N(p-q)]?^2/8Npq). (11)
P_N (x) вдвое больше, чем показано в (11), когда x и N имеют одинаковую четность, и P_N (x)?0, если четность x и N разная.
Данный гауссов вид универсален и возникает, когда среднее и среднеквадратичное смещение за один шаг конечны.
Рассмотрим симметричный случай, когда прыжки вправо и влево происходят с одинаковыми интенсивностями, которые мы полагаем равными единице. Обозначим через P_n (t) – вероятность того, что блуждание находится в узле n в момент t. Основное кинетическое уравнение для такой вероятности заполнения имеет вид:
(?P_n)/?t=P_(n+1)-?2P?_n+P_(n-1). (12)
Рисунок 1. Случайное блуждание с шагами одинаковой интенсивности.
Случайные блуждания в непрерывном времени с прыжками вправо и влево с интенсивностью = 1 ^([1]).
Здесь P_n растет за счет прыжков из n±1 в n, и, наоборот, P_n убывает из-за прыжков из n в n-1 и в n+1. Решение уравнения (12) дает:
P_n (t)=I_n (2t) e^(-2t), (13)
где I_n – модифицированная функция Бесселя порядка n. В пределах большого времени асимптотика функции Бесселя ведет себя как распределение Гаусса:
P_n (t)?1/?4?t e^(?-n?^2/4t). (14)
В непрерывном пространстве уравнение эволюции (12) превращается в уравнение диффузии. Чтобы сделать пространство непрерывным, мы заменяем m?x и P_n (t) на P(x,t) – плотность вероятности координаты x в момент времени t.
Разложим (12) в ряд Тейлора до второго порядка, это приводит к уравнению диффузии с коэффициентом D = 1:
(?P(x,t))/?t= D (?^2 P(x,t))/(?x^2 ) (15)
Решим уравнение (15) используя прямое и обратное преобразование Фурье:
P(k,t)=?_(-?)^???P(x,t) e^ikx dx, ? P(x,t)=1/2? ?_(-?)^???P(k,t) e^(-ikx) dk. ? (16)
Преобразование Фурье упрощает уравнение, возникающее в случайных блужданиях. С помощью преобразования Фурье из уравнения (15) получим:
(?P(k,t))/?t= Dk^2 P(k,t),
с решением P(k,t)=P(k,0) e^(-Dk^2 t). Используя начальные условия P(x,t=0)=?(x), получим P(k,t)=e^(-Dk^2 t). После этого обратим преобразование Фурье и получим распределение вероятностей Гаусса:
P(x,t)=1/2? ?_(-?)^???e^(-Dk^2 t) e^(-ikx) dk=1/?4?t e^(?-x?^2/4Dt) ?, (17)
которое идентично результату (14), полученному в дискретном времени, с коэффициентом диффузии взятым равным 1 ^([1]).
Распределение длины шага.
Предположим, что одношаговое распределение имеет вид:
p(x)={?(?x^(-(1+?)), x>1,@0, 00. Введем параметр обрезания снизу, чтобы избежать усложнений из-за бесконечно малых шагов, тогда как условие ?>0 обеспечивает нормируемость распределения. Используем основные факты о статистике экстремальных величин, чтобы определить два первых момента смещения из N шагов. Основная идея – заменить настоящее одношаговое распределение эффективным распределением p_eff (x), которое описывает лишь блуждания с конечным числом шагов. Эффективное распределение имеет ограниченный носитель, верхний предел которого определяется самым длинным шагом, ожидаемым за конечное число шагов.
Применяя экстремальный критерий
?_(x_max)^???p(x)dx~1/N? (19)
находим x_max~N^(1/?). По построению эта длина дает верхнее обрезание распределения одного шага для блуждания из N шагов. Следовательно, необходимо заменить одношаговое распределение p(x) для бесконечной выборки эффективным одношаговым распределением для блуждания N шагов:
p_eff (x)={?(?/(1-x_max^(-?) ) x^(-(1+?))??x^(-(1+?) ), 11,@1, 01. Тогда для средней длины максимального шага имеем:
?x_max ?=?_1^???xM_N (x)dx=N?_0^1??(1-?)^(N-1) ?^(-1/?) d?=I^' (1-1/?) (I^' (N+1))/(I^' (N+1-1/?) )?I^' (1-1/?) N^(1/?) ??
для N?1, ?=x^(-?).
Таким образом, экстремальный критерий (19) воспроизводит правильную зависимость ?x_max ? от N, а разобранный точный подход требуется для вычисления амплитуды.
Обрезанное одношаговое распределение p_eff (x) теперь соответствует условию центральной предельной теоремы: оба момента ?x? и ?x^2 ? конечны из-за обрезания. Поэтому мы можем вычислить смещение случайного блуждания из N шагов с широким распределением длин индивидуальных шагов, используя p_eff (x) вместо p(x) в формулировке центральной предельной теоремы. Таким образом, средняя длина единичного шага становится:
?x?_eff~??_1^(x_max)??xx^(-(1+?) ) dx~{?(?x_max?^(1-?), ?<1,@lnx_max, ?=1,@конечно, ?>1.)? ? (23)
Поскольку x_max~N^(1/?), величина ?x?_eff имеет следующую зависимость от N:
?x?_eff~{?(N^((1-?)/?), ?<1,@lnN, ?=1,@конечно, ?>1.)?
Аналогично, для ?x^2 ?_eff:
?x^2 ?_eff~{?(N^((2-?)/?), ?<2,@lnN, ?=2,@конечно, ?>2.)?
Так как первые два момента одношагового распределения конечны, центральная предельная теорема дает среднее значение и дисперсию случайного блуждания из N шагов:
?X??N?x?_eff~{?(N^(1/?), ?<1,@NlnN, ?=1,@конечно, ?>1.)?
var(X)=?X^2 ?-?X?^2~{?(N^(2/?), ?<2,@NlnN, ?=2,@конечно, ?>2.)?
Полученные результаты говорят, что самые большие отклонения от гауссова проведения возникают, когда 0<1; этот режим соответствует так называемым полетам Леви. Траектория типичного полета Леви показана на рисунке 3.
Рисунок 3. Траектория типичного полета Леви.
Случайное блуждание из 5000 шагов, в котором длина шага распределена по степенному закону r^(-3/4) ^([1]).
Это блуждание состоит из множества коротких участков и нескольких длинных скачков, которые вносят основной вклад в суммарное смещение. Такое поведение коренным образом отличается от траектории простого случайного блуждания, изображенного на рисунке 4, в котором длина шага фиксирована.
Рисунок 4. Случайное блуждание с фиксированной длинной шага.
Случайное блуждание из 5000 шагов, в котором каждый шаг фиксированной длины делается в любом направлении в двух измерениях ^([1]).
Когда хвост одношагового распределения спадает быстрее чем x^(-2) при больших x, распределение вероятностей скейлинговой переменной z=(X_N-N?x?/?N сходится к гауссовому виду при N??. В режиме 0<2 распределения вероятностей стремится к распределению Леви, часто обозначаемое через L_?. Важное свойство этого распределения – наличие степенного хвоста L_? (z)~z^(-(1+?)). Для 0<1 скейлинговая переменная z=X_N/N^(1/?) описывается распределением Леви, тогда как для 1<2 соответствующая скейлинговая переменная – это z=?(X?_N-N?x?)/ N^(1/?).
Замена смещения X_N скейлинговой переменной z обеспечивает правильное взятие предела N??. В то же время эта замена затемняет важное различие между гауссовым режимом (?>2) и полетами Леви (0<1). Действительно, в гауссовом режиме сумма большого числа независимых одинаково распределенных случайных величин становится более и более детерминированной при N??.А именно сумма сконцентрирована около N?x?, и хотя отклонения растут (в среднем) с ростом N, относительные флуктуации убывают как N^(-1/2) при N??. Таким образом, эффективно случайность исчезает из суммы. Это объясняет, почему можно доверять большим социологическим опросам. Это явление называется «самоусреднение». Однако для полетов Леви остается случайной. Эта случайность станет очевидной, если заметить, что зависимость ?X? от N такая же, как и y?x_max ?. Полеты Леви несамоусредняемы, что проявляется в больших флуктуациях, возникающих от выборки к выборке, которые никогда не исчезают даже в термодинамическом пределе. В примере рассмотренном выше, распределения Леви возникали в специальном случае (18), когда все шаги положительны. В более общем случае распределения Леви зависят от индекса ? и от параметра асимметрии ?, где -1???1, который характеризует относительную частоту положительных шагов (?=0 соответствует равным частотам положительных и отрицательных шагов, а при ?=1 все шаги положительны). Распределение Леви (18), возникающее из сумм случайных величин, соответствует полностью ассиметричному случаю ?=1. Поэтому L_??L_(?,1). Симметричные распределения Леви также часто встречаются в различных приложениях. Их Фурье-образ дается формулой:
L_(?,0) (z)=1/2? ?_(-?)^???e^(-C|k|^?-ikz) dk.? (24)
В некоторых случаях интеграл в (24) можно выразить через элементарные функции. Распределение Гаусса воспроизводится при ?=2, а при ?=1 результатом является распределение Коши:
L_1,0 (z)=1/? 1/(1+z^2 ) ^([2]).
Коэффициент эксцесса.
Коэффициент эксцесса (Kurtosis) — числовая мера, отображающая остроту пика распределения случайной величины.
Коэффициент эксцесса распределения случайной величины x определяется формулой
?_2=(1/n ?_(i=1)^n?(x_i-x ? )^4 )/?^4 -3
где x ? – среднее значение случайной величины x, ? – среднеквадратическое отклонение случайной величины x ^([6]).
Нормальному распределению плотности вероятности соответствует нулевой эксцесс ?_2=0. В случае если ?_2>0, то плотность вероятности имеет положительный эксцесс, что соответствует тому, что график плотности распределения имеет более острую и высокую вершину, а хвосты распределения находятся выше, чем у нормального распределения. Если хвосты распределения находятся ниже, чем у нормального распределения, а пик более низкий и плоский, то плотность вероятности имеет отрицательный эксцесс и ?_2<0 ^([7]).
Область возможных значений коэффициента эксцесса ?_2?[-2,?).
Рисунок 5. Коэффициент эксцесса ^([8]).
На рисунке изображено три линии, отображающие наглядное различие между значениями коэффициента эксцесса: положительный, нейтральный и отрицательный.
Статистический анализ временных рядов Forex.
Сбор и подготовка данных.
В настоящей работе рассмотрена динамика цен рынка FOREX для пары валют евро-доллар за 2004 год. Данные выгружены с сайта http://ratedata.gaincapital.com/2004/, который предоставляет информацию по продажам на рынке Forex, для удобства обработки загружаем в предварительно созданную базу данных (БД). Используем SQL Server, для написания запросов к БД.
Для удобства рассмотрения данных, приведем их к поминутному распределению. Для этого создаем пустую поминутную таблицу («CTE_Temp»). Рекурсивно раскладываем день на минуты. Затем выбирая нужный нам год, расписываем все дни по заданной функции.
delete from [dbo].[CTE_Temp]
WITH CTE AS (
SELECT 1 as Number
UNION ALL
SELECT Number+1
FROM CTE
WHERE Number < 1440
)
insert into [dbo].[CTE_Temp]
SELECT DATEADD(MINUTE,CTE.Number, t.[Date]) as [DateByMinute]
FROM CTE,(select a.[Date] from [dbo].[Calendar] as a where a.[Year] = 2004) as t
option (maxrecursion 0)
Так как в исходной таблице с данными за каждую минуту могло происходить не одинаковое количество тиков, мы посчитаем среднее поминутно и запишем значения в таблицу («AVG_Temp»).
delete from [dbo].[AVG_Temp]
insert into [dbo].[AVG_Temp]
select
[CurrencyPair]
,dateadd(mi, datepart(mi, [RateDateTime]), dateadd(hh, datediff(hh, 0, [RateDateTime]), 0)) as [RateDateTime]
avg([RateBid]) as [RateBid]
avg([RateAsk]) as [RateAsk]
from [dbo].[CurrencyRates]
group by
[CurrencyPair]
,dateadd(mi, datepart(mi, [RateDateTime]), dateadd(hh, datediff(hh, 0, [RateDateTime]), 0))
Теперь нужно соединить обе полученные таблицы. Тем самым получится таблица («MAIN_TEMP») со всеми минутами за год, но она будет заполнена только теми значениями, которые имеются во второй таблице (посчитанное среднее).
delete from [dbo].[MAIN_TEMP]
insert into [dbo].[MAIN_TEMP]
SELECT tab.DateByMinute
,Replace(c.CurrencyPair,'"','')
,c.RateBid
,c.RateAsk
FROM [dbo].[CTE_Temp] as tab left join [dbo].[AVG_Temp] as c on tab.[DateByMinute] = c.[RateDateTime]
Осталось заполнить пустые ячейки значениями за предыдущую минуту и записать их в новую таблицу («EUR_USD_2004»). Тем самым не останется минут, у которых нет цены.
delete from [dbo].[EUR_USD_2004]
insert into [dbo].[EUR_USD_2004] ([CurrencyPair]
,[RateDateTime]
,[RateBid]
,[RateAsk])
select
t.CurrencyPair
,t.DateByMinute
,ISNULL(t.RateBid, (SELECT TOP 1 RateBid FROM dbo.Main_TEMP WHERE DateByMinute < t.DateByMinute AND RateBid IS NOT NULL ORDER BY DateByMinute desc)) as NewRateBid
,ISNULL(t.RateAsk, (SELECT TOP 1 RateAsk FROM dbo.Main_TEMP WHERE DateByMinute < t.DateByMinute AND RateAsk IS NOT NULL ORDER BY DateByMinute desc)) as NewRateAsk
FROM dbo.Main_TEMP t
order by t.DateByMinute
update [dbo].[EUR_USD_2004]
set [CurrencyPair] = (select top 1 [CurrencyPair] from dbo.Main_TEMP)
Данные готовы к работе.
Реализация приращений.
В рамках данной работы проведем анализ зависимости вида распределения от временного интервала разности цен. Полагаем, что распределение временного ряда приближается к распределению Гаусса при больших временных интервалах. Произведем необходимые подготовительные расчеты для построения.
Для анализа полученных данных найдем разность цен - дельты (d). Разность цен рассчитывается между минутами. Воспользуемся Microsoft Office Excel 2010. Из-за необходимости расчета дельт для нескольких значений, выведем и воспользуемся универсальной формулой:
d_n=x_(n+1)-x_1, (25)
где ?dn?_n – искомая дельта, n – номер дельты (1, 2, 5 и .т.д.), x_(n+1) – конечная цена для данного значения дельты с номером (n+1)?N (N – количество минут в рассматриваемом ряду), x_1 – начальная цена для данного значения дельты с номером = 1.
Для наиболее наглядного результата необходимо найти дельты для значений: 1, 2, 5, 10, 30, 60, 120, 300 и 1440.
Произведем расчет в MS Excel на примере значения дельта = 1. С помощью (25) и встроенной функции «=ОКРУГЛ()», выводя после запятой 5 знаков, рассчитаем значения. Применим полученную формулу для всего столбца значений, номер последнего значения равен 527040. Скопируем полученные данные в новый столбец, удалим повторяющиеся данные и отсортируем их в порядке возрастания. Получили столбец с уникальными значениями дельт (назовем данный столбец «dx»). Теперь необходимо в новом столбце посчитать, сколько раз каждое уникальное значение дельты встречается среди всех дельт, для этого применим встроенную функцию Excel «=СЧЁТЕСЛИ(«диапазон ячеек со всеми дельтами»; «ячейка с уникальной дельтой»)». Применим данную формулу для всех уникальных значений дельт. Для упрощения назовем данный столбец «Count».
Так как при приведении данных к поминутному распределению заполнялись не рабочие дни рынка одинаковыми значениями, то дельты в такие дни равны нулю и их количество является слишком большим, по сравнению с количеством остальных дельт. По данной причине исключим значение дельты равное нулю для упрощения наглядного представления. Вычислим сумму полученного столбца с помощью встроенной функции «=СУММ(«диапазон ячеек столбца Count»)» (Сумма_Count).
Найдем математическое ожидание полученного ряда, для этого в новом столбце перемножим значения столбцов dx и Count, получим столбец «dx*Count». Вычислим его сумму с помощью встроенной функции и получим значение «Сумма_ dx*Count». Таким образом, мы посчитали сумму всех значений дельт. Математическое ожидание рассчитывается как отношение «Сумма_ dx*Count» к «Сумма_Count» (). Выпишем данное значение в отдельной таблице в ячейку «МО».
Рисунок 6. Пример таблицы основных параметров.
При расчете среднеквадратического отклонения для нового столбца необходимо выполнить следующую формулу «=dx^2*Count» (наименование столбца «dx^2*Count»). С помощью встроенной функции вычислим сумму столбца и получим значение «Сумма_ dx^2*Count». Вычислим среднее значение данного столбца как отношение «Сумма_ dx^2*Count» к «Сумма_Count» (). Среднеквадратическое отклонение («?») рассчитаем с помощью встроенной функции «=КОРЕНЬ( - ??^2)». Выпишем данное значение в отдельной таблице в ячейку «Cigma».
Найдем нормальное распределение (Norm) для dx с помощью встроенной функции «=НОРМРАСП(«соответствующая ячейка из столбца dx»;«МО»;«Cigma»;0)». С помощью встроенной функции вычислим сумму столбца и получим значение «Сумма_ Norm».
Произведем нормировку столбца Count (Renorm_count) с помощью следующей функции «dx/Сумма_Count*Сумма_Norm».
Столбцы Log_Norm и Log_count заполним соответствующими прологарифмировнными значениями столбцов Norm и Renorm_count
Пример внешнего вида заполненной таблицы данных:
Рисунок 7.Пример расчетной таблицы данных.
Повторим все выше описанные действия для значений дельт = 2, 5, 10, 30, 60, 120, 300 и 1440.
Демонстрация приближения данных к распределению Гаусса.
С помощью программного продукта Origin 8 представим полученные данные графически. На рисунках 8 - 16 изображено два графика, один из которых отображает нормальное распределение, а другой распределение нормированного количества уникальных дельт. Данные графики построены на основании столбцов Norm и Renorm_count относительно столбца dx.
Рисунок 8.Нормальное распределение и распределение нормированного количества (дельта = 1)
Рисунок 9.Нормальное распределение и распределение нормированного количества (дельта = 2)
Рисунок 10.Нормальное распределение и распределение нормированного количества (дельта = 5)
Рисунок 11.Нормальное распределение и распределение нормированного количества (дельта = 10)
Рисунок 12.Нормальное распределение и распределение нормированного количества (дельта = 30)
Рисунок 13.Нормальное распределение и распределение нормированного количества (дельта = 60)
Рисунок 14.Нормальное распределение и распределение нормированного количества (дельта = 120)
Рисунок 15.Нормальное распределение и распределение нормированного количества (дельта = 300)
Рисунок 16.Нормальное распределение и распределение нормированного количества (дельта = 1440)
Для большей наглядности построим графики на основании столбцов Log_Norm и Log_count относительно столбца dx. На рисунках 17 - 25 изображено два графика, один из которых отображает нормальное распределение, а другой распределение нормированного количества уникальных дельт в логарифмических координатах.
Рисунок 17. Распределение в логарифмических координатах (дельта = 1)
Рисунок 18. Распределение в логарифмических координатах (дельта = 2)
Рисунок 19. Распределение в логарифмических координатах (дельта = 5)
Рисунок 20. Распределение в логарифмических координатах (дельта = 10)
Рисунок 21. Распределение в логарифмических координатах (дельта = 30)
Рисунок 22. Распределение в логарифмических координатах (дельта = 60)
Рисунок 23. Распределение в логарифмических координатах (дельта = 120)
Рисунок 24. Распределение в логарифмических координатах (дельта = 300)
Рисунок 25. Распределение в логарифмических координатах (дельта = 1440)
Из рисунков 17- 25 видим, что распределение нормированного количества уникальных дельт приближается к распределению Гаусса.
Произведем нормировку столбцов dx и Renorm_count в соответствии с параметром Cigma для каждой дельты, используем встроенные функции в Origin 8 (col(A)/«Cigma») и (col(В)*«Cigma»). Отобразим все полученные после нормировки данные на одном графике для сравнения.
Рисунок 26. Дельты, приведенные к общей нормировке распределения.
Рисунок 27. Дельты, приведенные к общей нормировке распределения без учета дельты = 1440.
Из графиков можно увидеть, что распределение плотности вероятностей является устойчивым на протяжении достаточно больших дельт (Рисунок 27). Но при отображении на графике значений для дельты = 1440 видно, что устойчивое распределение Леви изменяется и приближается к распределению Гаусса.
Построим зависимость изменения среднеквадратического отклонения от дельты. Из рисунка 28 видно, что у всех ? линейная зависимость.
Рисунок 28. Зависимость изменения среднеквадратического отклонения от дельты.
Нахождение коэффициента эксцесса.
В разделе 2.3 данной работы описано наглядное приближение распределения исходного ряда к распределению Гаусса, при увеличении дельты. Докажем данное утверждение с помощью коэффициента эксцесса (kurtosis).
Как известно kurtosis определяется формулой:
?_2=?^4/?^4 -3
где µ – математическое ожидание, ? – среднеквадратическое отклонение.
Нормальному распределению плотности вероятности соответствует нулевой эксцесс ?_2=0. Следовательно, ?^4/?^4 =3.
Рассчитаем коэффициент эксцесса в среде MS Excel. Для этого в новом столбце (dx^4*Count) необходимо выполнить следующую формулу «=dx^4*Count». С помощью встроенной функции вычислим сумму столбца и получим значение «Сумма_ dx^4*Count». Выпишем данное значение в отдельной таблице, показанной на рисунке 6, в ячейку «M4».
Значение коэффициента эксцесса рассчитаем в ячейке «Kurtosis» и значение его будет равно отношению «значения ячейки M4» к «значению ячейки Cigma в 4 степени».
Выпишем все коэффициенты эксцесса в отдельную таблицу (Рисунок 29) и построим их зависимость от изменения дельты.
Рисунок 29. Таблица коэффициентов эксцесса.
Рисунок 30. Зависимость коэффициентов эксцесса от изменения дельты.
Заключение
В рамках данной работы был проведен анализ зависимости вида распределения плотности вероятности, от временного интервала разности цен. Показали, что распределение плотности вероятности временного ряда приближается к распределению Гаусса при больших временных интервалах. Для проверки данного утверждения провелась большая работа по подготовке и обработке данных. Было построено множество графиков, из которых видно изменение зависимости нормального распределения и распределения нормированного количества уникальных значений разности цен. Наглядно убедились в корректности приведенного утверждения. На примере коэффициента эксцесса показали, что распределение плотности вероятности временного ряда приближается к распределению Гаусса при больших временных интервалах.
Список литературы
Pavel L. Krapivsky, Sidney Redner, Eli Ben-Naim: «A Kinetic View of Statistical Physics», Cambridge University Press, 1 edition (December 27, 2010), 504 pages;
H. Eugene Stanley, Rosario N. Mantegna: «An introduction to econophysics: correlations and complexity in finance», Cambridge University Press, 2000, 144 pages;
James P. Sethna: «Entropy, Order Parameters, and Complexity», Clarendon press Oxford, 2011, 351 pages;
Jean-Philippe Bouchaud and Marc Potters: «Theory of financial risks from statistical physics to risk management», Cambridge University Press, 2000, 218 pages;
Дерендяев Н.В. Анализ размерности и автомодельные решения (в примерах и задачах). Учебно-методический материал по программе повышения квалификации «Информационные технологии и компьютерное моделирование в прикладной математике». Нижний Новгород, 2007, 78 с.
https://en.wikipedia.org/wiki/Kurtosis
http://www.machinelearning.ru/wiki/index.php?title=%D0%9A%D0%BE%D1%8D%D1%84%D1%84%D0%B8%D1%86%D0%B8%D0%B5%D0%BD%D1%82_%D1%8D%D0%BA%D1%81%D1%86%D0%B5%D1%81%D1%81%D0%B0
http://yourforexschool.com/book/157-opciony-volatilnost-i-ocenka-stoimosti-strategii-i-metody-opcionnoj-torgovli/102-teoreticheskaya-stoimost.html
http://ratedata.gaincapital.com/2004/
39
....................... |