Statistics

Повторение статистики для начала путешествия по науке о данных

Предыдущие части: Часть 1


Функции распределения вероятностей

Функция распределения вероятностей — это функция, описывающая возможность того или иного события или результата. Мы разберем разные типы распределений в зависимости от вида набора данных: непрерывный или дискретный.

Функция плотности вероятности (PDF)

При графе, как на схеме ниже, можно подумать, что он показывает вероятность появления определенного значения. Однако, в случае с непрерывными данными все работает иначе, так как здесь мы имеем бесконечное количество точек данных. Таким образом, вероятность появления определенного значения может быть очень мала — бесконечно мала!

PDF показывает вероятность определенного ряда значений. Отсюда и слово «плотность»! Для визуализации вероятности необходимо отметить точки набора данных в виде кривой. Площадь под кривой между двумя точками соответствует вероятности того, что переменная окажется между этими двумя значениями.

Courtesy: scipy.stats.gennorm

«Печально известное» колоколообразное стандартное нормальное распределение 

Чтобы лучше разобраться в этом, рассмотрим особый случай PDF:

Источник: Принстонский университет

Между средним значением и одним среднеквадратичным отклонением (1σ) существует 34.1% вероятности того, что значение окажется в этом диапазоне. Таким образом, для данного значения существует 68,2% вероятности оказаться между точками -1σ и 1σ , то есть вероятность очень велика. 
Это значит, что значения сконцентрированы рядом со средним значением, и по мере отдаления от одного среднеквадратичного отклонения (+-) вероятность постепенно уменьшается.


Функция распределения вероятности (PMF)

Когда речь заходит о дискретных данных, функция распределения вероятности является мерой, показывающей вероятность появления определенного значения. Для визуализации вероятности необходимо отметить точки набора данных в виде гистограммы.

Источник: scipy.stats.rv_discrete

Непрерывные распределения данных

Теперь, когда мы узнали разницу между функцией плотности вероятности и функцией распределения вероятности, мы рассмотрим наиболее часто встречающиеся типы распределения, начиная с непрерывного.

#PDF-1: Равномерное / прямоугольное распределение

Равномерное распределение характеризуется наличием постоянной прямой вероятности значения на определенном интервале, а также оно связано с событиями, которые в равной степени вероятны.

Источник: scipy.stats.uniform

На данной диаграмме мы не получим результат ниже 0,0 и выше 1,0. Но в пределах данного диапазона есть прямая, так как существует постоянная вероятность того, что какое-нибудь значение попадет в заданный диапазон.


#PDF-2: Нормальное распределение / распределение Гаусса

Мы рассмотрели стандартное нормальное распределение, когда разбирали, что такое PDF. Если ввести случайный элемент, нормальное распределение будет выглядеть вот так:

Источник: scipy.stats.norm

Среднее значение для стандартного нормального распределения равно 0, а среднеквадратичное отклонение — 1.


#PDF-3: Распределение Стьюдента

Распределение Стьюдента очень похоже на колоколообразную кривую нормального распределения, но немного короче и с более «тяжелыми» хвостами. Его используют вместо нормального распределения тогда, когда даны малые выборки и/или неизвестна дисперсия генеральной совокупности.

Источник: scipy.stats.t

#PDF-4: Распределение χ2 (хи-квадрат)

Распределение χ 2 (хи-квадрат) используется для оценки следующих проблем:

  • Подходит ли набор данных определенному виду распределения
  • Одинаковы ли распределения двух совокупностей
  • Независимы ли друг от друга два события
  • Есть ли в совокупности другая изменчивость

Кривая стремится вправо.

Источник: scipy.stats.chi2

#PDF-5: Экспоненциальное распределение вероятностей

Другой часто встречающейся функцией распределения является функция экспоненциального распределения вероятностей, в которой значения снижаются экспоненциально.

Источник: scipy.stats.expon

В таком распределении меньше больших значений и больше малых, то есть, чем событие ближе к нулю, тем вероятнее, что оно произойдет, и отдаляясь от нуля, вероятность события значительно сокращается.

Приведем пример из повседневной жизни — количество потраченных покупателями денег в магазине: гораздо больше людей, которые тратят небольшие суммы, чем тех, кто тратит огромные суммы денег.

Кроме того, такое распределение широко используется для построения времени, прошедшего между событиями, а также надежности, касающейся количества времени, в период которого продукт продолжает работать. Например, какое количество времени (начиная с этой минуты) в месяцах аккумулятор машины будет продолжать работать.


Дискретные распределения данных

Дискретные распределения данных делятся на два главных типа:

#PMF-1: Биномиальное распределение

Представим, что определенный эксперимент имеет два возможных результата: успех или провал. Допустим, эксперимент повторяли несколько раз, и эти повторы были независимы друг от друга. Общее число экспериментов, где результаты оказались успешными, является случайной переменной, распределение которой является биномиальным.

Источник: scipy.stats.binom

#PMF-2: Распределение Пуассона

Распределение Пуассона показывает вероятность определенных событий, происходящих за фиксированный временной интервал, если они совершаются:

  • С известным средним значением
  • Независимо по времени друг от друга
Источник: scipy.stats.poisson

Классическим примером является количество телефонных звонков в call-центр.
Еще один способ, как использовать распределение Пуассона: если известно среднее количество происходящих событий в данный период времени, то можно спрогнозировать шансы того, получим ли мы другое значение в определенное время в будущем. Например: посты на “Medium” просматривают в среднем 1,000 человек в день. Я могу воспользоваться функцией распределения Пуассона, чтобы вычислить вероятность того, что когда-нибудь я наберу 1,500 просмотров.

Перевод статьи Semi Koen: Statistics is the Grammar of Data Science — Part 2/5