Наука о данных

Статистика - это грамматика науки о данных. Часть 1

16.03.2019

Повторение статистики для начала путешествия по науке о данных

Часть 1, Часть 2, Часть 3, Часть 4, Часть 5

«Статистика — это грамматика науки»

Данное высказывание приписывают английскому математику Карлу Пирсону, который считается некоторыми основателем современной статистики.

Мы же поговорим о статистике в науке о данных.

Такие библиотеки машинного обучения, как Tensorflow или Scikit-learn, скрывают почти всю сложную математику от пользователей.
То есть нам не нужно особо разбираться в математике, но иметь общие, базовые знания все равно необходимо для более эффективного использования данных библиотек.

Я собираюсь написать пять коротких статей по следующим темам, чтобы начать, а затем сопровождать наше приключение по науке о данных:

Часть 1: Типы данных | Меры центральной тенденции | Меры изменчивости

Часть 2: Распределение данных

Часть 3: Меры расположения | Моменты случайной величины

Часть 4: Ковариация | Корреляция

Часть 5: Условная вероятность | Байесовская теорема

Что ж, приступим к первой части!

Типы данных

Самая базовая часть: данные делятся на три категории, основываясь на которых специалист по обработке данных выбирает, как проводить дальнейший анализ и обработку:

#1. Числовые данные представляют собой некоторую количественную информацию, которая поддается измерению и далее подразделяется на две подкатегории:

Дискретные данные — основываются на целых числах (например, количество людей)
Непрерывные данные — основываются на десятичных числах (например, цена, расстояние, температура).

#2. Категориальные данные — это качественные данные, применяемые для классификации данных по категориям (перечисление в программировании). Например, пол, марки автомобилей, страна проживания и т.д. Иногда категориям присваиваются номера для компактности, но они не имеют никакого математического значения.

#3. Порядковые данные представляют собой дискретные и упорядоченные единицы, например, места, занятые на Лиге чемпионов(1-е, 2-е, 3-е), приоритет ошибки (низкий, критический, showstopper), звезды у отеля (1–5).

Меры центральной тенденции

Представим, что у нас есть набор данных из пяти чисел:

{ 6, 3, 100, 3, 13 }

Среднее значение

Среднее значение (обозначаемое греческой буквой «мю» — μ) — некоторое число, заключенное между наименьшим и наибольшим значениями в наборе данных. Чтобы вычислить среднее значение, нужно сложить все значения и разделить получившуюся сумму на количество этих значений.

Напр: 6 + 3 + 100 + 3 + 13 = 125 →
     μ = 125 ÷ 5 = 25

Медиана

Медиана — это середина набора данных. Чтобы вычислить медиану, необходимо рассортировать все значения (в порядке возрастания или убывания) и выбрать то значение, которое находится посередине.

Например: 3, 3, 6, 13, 100 → 6

Если количество точек данных четное, то для нахождения медианы просчитывается среднее значение двух точек по середине.

Медиана менее восприимчива к выбросам, чем среднее значение, и, следовательно, для выбора определенного значения мы должны принять во внимание то, как выглядит распределение данных.

Мода

Мода — это наиболее распространенное значение в наборе данных. Чтобы вычислить моду, необходимо найти число, которое встречается наиболее часто.

Например: 3:2, 6:1, 13:1, 100:1 → 3

Мода обычно важна для дискретных числовых данных, но не для непрерывных.

Меры изменчивости

Размах

Размах — это разница между наименьшим и наибольшим числами набора данных. Чтобы вычислить размах, необходимо вычесть наименьшее значение из наибольшего.

Например: 100 – 3 = 97

Результат показывает, насколько разнообразен набор данных, т.е. насколько он распространен. Но, как и среднее значение, размах очень чувствителен к выбросам.

Дисперсия

Дисперсия измеряет разброс данных. Чтобы вычислить дисперсию, необходимо взять среднюю точку квадратов разностей, полученных из среднего значения.

#1. Найдите среднее значение точек данных

В пункте, где мы вычисляли среднее значение, это число составляло 25

#2. Вычтите среднее значение из каждой точки данных.

6 - 25 = -19
3 - 25 = -22
100 - 25 = 75
3 - 25 = -22
13 - 25 = -12

#3. Возведите в квадрат результат

(-19)^2 = 361
(-22)^2 = 484
(75)^2 = 5,625
(-22)^2 = 484
(-12)^2 = 144

#4. Найдите среднее значение всех результатов (т.е. сложите все и разделите на количество)

361 + 484 + 5,625 + 484 + 144 = 7,098 →
7,098 ÷ 5 = 1,419.6

✏️«Сумма квадратов»

Существует две причины, почему на #3 этапе мы возводим результат в квадрат:

Отрицательные разницы обладают тем же влиянием, что и положительные, т.е. они не исключают друг друга
Это усиливает эффект, который есть у выбросов в наборе данных.

✏️ Полнота данных

На #4 этапе существует небольшое различие, зависимое от того, насколько полным является наш набор данных:

Для полной совокупности мы делим на количество точек данных (n), т.е. #4 этап был правильным, так как в данном случае мы имеем полную совокупность
Для выборок мы делим на количество точек данных минус 1 (n — 1)

7,098 ÷ 4 = 1774.5

Среднеквадратическое отклонение

Среднеквадратическое отклонение (обозначаемое греческой буквой «сигма» — σ) — это квадратный корень из дисперсии.

Например: σ = SQRT(1,419.6) = 37.68

Оно используется для того, чтобы узнать, какая точка данных является выбросом в зависимости от того, на сколько среднеквадратичных отклонений она далека от среднего значения.
В нашем случае значение 100 является выбросом:

μ = 25
σ = 37.68
Выбросы (верхняя граница): 25 + 37.68 = 62.68
Выбросы (нижняя граница): 25 - 37.68 = -12.68
Таким образом, значения больше, чем 62.68, и ниже, чем -12.68, являются выбросами.

Перевод статьи Semi Koen: Statistics is the Grammar of Data Science — Part 1

Статистика - это грамматика науки о данных. Часть 1

Типы данных

Меры центральной тенденции

Среднее значение

Медиана

Мода

Меры изменчивости

Размах

Дисперсия

Среднеквадратическое отклонение

Читайте также

11 инструментов для ускорения создания пользовательского интерфейса

Пять направлений применения исследования операций

Язык выражений Spring для создания простого движка правил

Тесты

Какой ваш язык программирования?

Что вы знаете о типах данных Java?

Какая из профессий в IT-сфере подойдет именно вам?