Кумулятивная функция распределения python

Статистика и анализ данных : теория и практика

В непрерывном распределении вероятностей переменная может принимать любое действительное число. Она не ограничена конечным набором значений, как это имеет место в дискретном распределении вероятностей, например, вес здорового новорожденного ребенка может варьироваться примерно от 2,5 до 4,5 кг

Непрерывное распределение вероятностей характеризуется функцией плотности вероятности (PDF). Сумма всех вероятностей, которые может принять случайная величина, равна 1. Таким образом, площадь под графиком функции плотности вероятности равна 1.

Так как использовать в примерах будем в основном функции библиотеки scipy.stats приведем общие принципы работы с ними :

Работа с библиотекой scipy.stats

НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ

Нормальное распределение, также известное как гауссово распределение, является одним из самых популярных непрерывных распределений в области аналитики, особенно из-за его использования в нескольких контекстах. Нормальное распределение наблюдается по многим естественным показателям, таким как возраст, зарплата, объем продаж, вес при рождении, рост и т. д. Она также широко известна как кривая колокола (так как имеет форму колокола).

Нормальное распределение параметризуется двумя параметрами: средним значением распределения $\mu$ и дисперсией $\sigma^2$». Посмотрим, как изменяется форма распределения в зависимости от дисперсии :

Нормальное распределение также можно рассматривать как непрерывный предел биномиального распределения $n\rightarrow \infty$. Подтверждение этому можно увидеть это на графике:

При увеличении n биномиальное распределение приближается к нормальному. На самом деле это хорошо видно на предыдущих графиках для n>=30.

Создадим случайную величину, которая следует нормальному распределению, используя scipy.stats модуль. Предположим, что рост мужчин описывается нормальным распределением со средним значением 170 см и стандартным отклонением 10 см. Чтобы создать эту случайную величину с помощью scipy. stats, нужно использовать следующий код:

Чтобы построить полную функцию плотности вероятности, мы должны создать вектор, содержащий набор возможных значений, которые может принимать эта переменная. 
Предположим, что мы хотим построить функцию для значений между 130
см и 210 см, которые являются вероятными значениями для здоровых взрослых мужчин. Для этого создаем вектор значений с помощью np. linspace, который в этом случае создаст 200 равноудаленных чисел между 120 и 210 (включительно):
values = np.linspace(130, 210, num=200)
Теперь можем построить график против созданных значений:

Чем выше кривая, тем более вероятны значения. Например, с большей вероятностью можно наблюдать рост мужчин между 160 и 170 см, чем между 140 и 150 см.

Теперь, когда мы определили эту нормально распределенную случайную величину, можем использовать ее для некоторых расчетов. Например можем сделать некоторую выборку из этой случайной величины. Для этого мы можем использовать метод rvs, который генерирует случайные выборки из распределения вероятностей:

Men 1 height: 171.2 Men 2 height: 173.3 Men 3 height: 157.1 Men 4 height: 164.9 Men 5 height: 179.1
Здесь мы имитируем выборку из пяти случайных мужчин.
 Можем также использовать моделирование, чтобы ответить на вопросы о вероятности событий, связанных с этой случайной величиной. Например, какова вероятность найти мужчину выше 190 см? Следующий код вычисляет это моделирование с использованием нашей ранее определенной случайной величины:
sim_size = int(1e5) sample_heights = heights_rv.rvs\ (size = sim_size,random_state = 88) Prob_event = (sample_heights > 190).sum()/sim_size print(f'Probability of a male > 190 cm: \ (or %)')
Probability of a male > 190 cm: 0.02303 (or 2.30%)
Можем сравнить полученное значение с "точным"
1-heights_rv.cdf(190)
Как видим, получили тоже самое значение, но в одну строку.
Пример нормального распределения

Чтобы понять нормальное распределение и его применение, мы будем использовать дневную доходность акций, торгуемых на BSE (бомбейская фондовая биржа). Представьте себе сценарий, в котором инвестор хочет понять риски и доходность, связанные с различными акциями, прежде чем инвестировать в них. Для этого анализа мы оценим две акции: BEML и GLAXO. Ежедневные торговые данные (цена открытия и закрытия) по каждой акции берутся за период с 2010 по 2016 год с сайта BSE (www.bseindia.com).

Во-первых, мы загрузим и подготовим данные, прежде чем вернуться к применению нормального распределения.

Index(['Date', 'Open', 'High', 'Low', 'Last', 'Close', 'Total Trade Quantity', 'Turnover (Lacs)'], dtype='object')
 Index(['Date', 'Open', 'High', 'Low', 'Last', 'Close', 'Total Trade Quantity', 'Turnover (Lacs)'], dtype='object')

Набор данных содержит дневную цену открытия ( Open) и закрытия ( Close) , а также дневные максимумы ( High) и минимумы цен ( Low) , общий объем торговли ( Total Trade Quantity) ,к оличество и оборот ( Turnover (Lacs) ). Будем рассматривать только цены закрытия. Дневная доходность акции рассчитывается как изменение цены закрытия по отношению к цене закрытия вчерашнего дня.

Поскольку наш анализ будет включать только дневные цены закрытия, поэтому мы выберем столбцы даты и закрытия из фреймов данных.

Визуализация дневных цен закрытия покажет, как цены акций двигались с течением времени. Чтобы показать тренд цены закрытия, строки должны быть упорядочены по времени. Фреймы данных имеют столбец date, поэтому мы можем создать индекс DatetimeIndex из этого столбца Date. Это гарантирует, что строки будут отсортированы по времени в порядке возрастания.

Покажем первые 5 записей после того, как фрейм данных будет отсортирован по времени, чтобы убедимся, что это сделано правильно

Date Date Close
Date
2010-01-04 2010-01-04 1625.65
2010-01-05 2010-01-05 1616.80
2010-01-06 2010-01-06 1638.50
2010-01-07 2010-01-07 1648.70
2010-01-08 2010-01-08 1639.80

Можно заметить, что в период 2010-2017 годов наблюдается тенденция к росту цены закрытия Glaxo. Однако BEML имел тенденцию к снижению в течение 2010-2013 годов, за которой последовала тенденция к росту с 2014 года, а затем снова коррекция цен с середины 2015 года.

Чтобы ответить на вышеприведенные вопросы, мы должны выяснить поведение ежедневной доходности (мы будем называть это прибылью ) на этих акциях. Прибыль может быть рассчитана как процентное изменение цены закрытия от цены закрытия предыдущего дня.

Метод pct_change () в Pandas даст процентное изменение значения столбца, сдвинутого на период, который передается в качестве параметра периодам periods = 1 указывает на изменение значения с момента последней строки, то есть за предыдущий день.

Date Close gain
Date
2010-01-04 2010-01-04 1625.65 NaN
2010-01-05 2010-01-05 1616.80 -0.005444
2010-01-06 2010-01-06 1638.50 0.013422
2010-01-07 2010-01-07 1648.70 0.006225
2010-01-08 2010-01-08 1639.80 -0.005398

Выигрыш первого дня отображается как NAN, так как нет предыдущего дня для расчета выигрыша. Мы можем отбросить эту

График показывает, что дневной прирост является весьма случайным и колеблется около 0.00. Прирост остается в основном между 0,05 и -0,05. Однако один раз наблюдался очень высокий выигрыш, близкий к 0,20 , и точно так же один раз наблюдалась высокая потеря около 0,08. Ч тобы получить лучшее представление выведем гистограмму с наложением функции плотности :

Судя по графику, прибыль, по-видимому, нормально распределена для обеих акций со средним значением около 0,00. Beml, по-видимому, имеет более высокую дисперсию, чем Glaxo.

Нормальное распределение параметризуется двумя параметрами: средним значением распределения $\mu$ и дисперсией $\sigma^2$".

Методы mean() и std () для столбцов фрейма данных возвращают среднее значение и стандартное отклонение соответственно.

Daily gain of Glaxo --------------------- Mean: 0.0004 Standard Deviation: 0.0134
Среднее и стандартное отклонение дневной доходности для BEML составляют:
print('Daily gain of BEML') print('---------------------') print('Mean: ', round(beml_df.gain.mean(), 4)) print('Standard Deviation: ', round(beml_df.gain.std(), 4))
Daily gain of BEML --------------------- Mean: 0.0003 Standard Deviation: 0.0264
Метод describe выводит подробную таблицу основных статистик
beml_df.gain.describe()
count 1738.000000 mean 0.000271 std 0.026431 min -0.133940 25% -0.013736 50% -0.001541 75% 0.011985 max 0.198329 Name: gain, dtype: float64
Ожидаемая дневная норма доходности (прибыли) составляет около 0% для обеих акций. Дисперсия или стандартное отклонение прибыли указывает на риск. Таким образом, акции BEML имеют более высокий риск, так как стандартное отклонение BEML составляет 2,64% тогда как стандартное отклонение для Glaxo составляет 1,33%. Доверительный Интервал
 Чтобы выяснить, каков ожидаемый диапазон доходности для 95% доверительного интервала, нам нужно вычислить значения прибыли для двух стандартных отклонений от среднего по обе стороны распределения, то есть m ± 2s . 
Для этого используем метод stats.norm.interval, он принимает три параметра : 
1. alpha: это интервал, например, 0,9 для 90% доверительного интервала. 2. loc: это параметр местоположения для распространения. Это среднее значение для нормального распределения. 3. scale: это параметр масштаба распределения. Это стандартное отклонение для нормального распределения.
glaxo_df_ci = stats.norm.interval( 0.95, loc = glaxo_df.gain.mean(), scale = glaxo_df.gain.std()) print( 'Gain at 95% confidence interval is: ', np.round(glaxo_df_ci, 4))
Gain at 95% confidence interval is: [-0.0258 0.0266]
Результат, возвращаемый методом, представляет собой кортеж. Первое значение кортежа - это крайнее левое значение интервала , а второе - самое правое значение интервала. Для 95% доверительного интервала прирост Glaxo остается между -2,58% и 2,66%. 
Доходность для BEML для 95% доверительного интервала определяется
beml_df_ci = stats. norm.interval(0.95, loc=beml_df.gain.mean(), scale=beml_df.gain.std()) print('Gain at 95% confidence interval is:', np.round(beml_df_ci, 4))
Gain at 95% confidence interval is: [-0.0515 0.0521]
Следовательно, прирост BEML остается между -5,15% и 5,21% для 95% доверительного интервала.
Кумулятивное распределение вероятностей
 Чтобы вычислить вероятность выигрыша выше 2% и более, нам нужно выяснить, какова сумма всех вероятностей, что выигрыш может принимать значения больше 0,02 (то есть 2%). Функция плотности вероятности f (xi) определяется как вероятность того, что значение случайной величины X лежит между бесконечно малым интервалом, определяемым xi и xi + δx. Кумулятивная функция распределения F (a) - это область под функцией плотности вероятности до X = a. Кумулятивная 
Чтобы вычислить вероятность того, что прибыль акций будет меньше -0,02 (то есть убыток), кумулятивная функция распределения может быть использована для вычисления площади распределения от крайней левой точки до -0,02. 
Функция stats.norm.cdf() возвращает интегральная функция распределения для нормального распределения.
print('Probability of making 2% loss or higher in Glaxo: ') stats.norm.cdf( -0.02,loc=glaxo_df.gain.mean(),scale=glaxo_df.gain.std())
Probability of making 2% loss or higher in Glaxo: 
print('Probability of making 2% loss or higher in BEML:') stats.norm.cdf( -0.02, loc=beml_df.gain.mean(), scale=beml_df.gain.std())
Probability of making 2% loss or higher in BEML:
Значение кумулятивной функции распределения указывает на то, что Beml имеет вероятность 22,1%, в то время как Glaxo имеет только 6,35% вероятности потери 2% или выше. Аналогично, вероятность получения ежедневного выигрыша в 2% или выше будет задана областью справа от 0,02 распределения. Поскольку stats.norm.cdf() дает кумулятивную площадь слева, вероятность может быть вычислена путем вычитания значения кумулятивной функции распределения из 1.
print('Probability of making 2% gain or higher in Glaxo:', 1 - stats.norm.cdf(0.02, loc=glaxo_df.gain.mean(), scale=glaxo_df.gain.std())) print('Probability of making 2% gain or higher in BEML:', 1 - stats.norm.cdf(0.02, loc=beml_df.gain.mean(), scale=beml_df.gain.std()))
Probability of making 2% gain or higher in Glaxo: 0.07104511457618568 Probability of making 2% gain or higher in BEML: 0.22769829484075343
Вероятность получения выигрыша в 2% и более для Glaxo составляет 7,1%, тогда как для BEML-22,76%.

Непрерывное равномерное распределение

Равномерное распределение моделирует случайную величину X, которая может принимать любое значение в диапазоне [a, b] с равной вероятностью.

Источник

Читайте также:  Base64 decode base64 java example
Оцените статью