В школьные годы мы изучали историю, потому что она рассказывала о происхождении эволюции, древней цивилизации, сельском хозяйстве, урбанизации и т. д. Данные работают по принципу человеческого поведения: мы учимся друг у друга и ведем себя определенным образом, что помогает сформировать шаблоны и спрогнозировать результаты.

Многим трудно разобраться в науке о данных из-за большого количества технических терминов. Поэтому мы объясним ее основные понятия так, чтобы было понятно каждому.

Мы рассмотрим следующие темы.

  • Данные
  • Исследовательский анализ данных
  • Групповой анализ
  • Кластеризация
  • Регрессия или Классификация

Данные

Чтобы узнать аудиторию, нужно начать с вопросов. Большинство ответов относятся к числовым формам данных.

Данные находятся повсюду. Количество людей в спортивном зале выступает одной из форм количественных данных. А такие категории, как легкая атлетика, футбол, баскетбол, бадминтон и т. д., называются качественными данными.

Объяснение должно быть построено на примерах, имеющих отношение к жизни или работе людей.

Исследовательский анализ данных

Теперь мы имеем представление о том, что такое данные. В этом разделе мы разберемся в их поведении, шаблонах, отношениях и ассоциациях.

Итак, прошлый пример показал, сколько всего участников находится в комнате, сколько из них относится к определенной группе, а также средний возраст участников, их полученную квалификацию и многое другое.

Однако если кто-то в группе не соответствует шаблону, сегменту или поведению, то он будет считаться лишним. Другими словами, если в комнате окажется человек с химическим образованием, то он будет восприниматься, как посторонний.

Чтобы установить какую-либо связь или ассоциацию между двумя точками данных, то нельзя просто сказать, что она есть. Нам необходимо предоставить доказательства. В науке о данных это нужно сделать с помощью статистической формулы с определением гипотезы.

Групповой анализ

Представьте, что вы менеджер, и вам нужно выбрать, где проводить мероприятие. Вы провели исследование и отобрали три ресторана: A, B и C. Теперь нужно выбрать один из них и при этом точно аргументировать свое решение.

Если данные параметрические (соответствуют нормальному распределению), то нужно сформулировать гипотезу и выполнить статистический тест, например t-критерий Стьюдента (для двух групп) или Дисперсионный анализ (более двух групп).

Однако если данные непараметрические, то необходимо выполнить такие тесты, как U-критерий Манна-Уитни, t-критерий Уилкоксона или Критерий Краскела-Уоллиса. Но что же такое параметрические данные?

Нормальное распределение 
Ненормальное распределение 

Два приведенных выше графика помогают лучше понять процесс распределения данных. Если атрибут распределен обычным способом, он будет соответствовать рисунку 1, и его можно отнести к параметрическим данным. Рисунок 2 относится к непараметрическим данным.

Кластеризация

Простыми словами, кластеризация подразумевает группировку. Она помогает понять поведение или модель, а также способствует формированию сегментов.

Один из распространенных примеров: в детстве наблюдали за тем, как звезды образуют различные формы. Мы определяли форму и создавали изображение, визуализируя близлежащие звезды. Теперь представьте, что точки данных также являются звездами.

Мы формируем кластер с помощью математической формулы, например вычисления Евклидова метрика или Расстояние городских кварталов. Однако здесь присутствует одна загвоздка  —  как много кластеров можно сформировать? Вы сможете узнать это при помощи кривой локтя, коэффициента силуэта, оценки силуэта или оценки wss.

Регрессия и классификация

Чтобы понять, что такое регрессия, рассмотрим следующий пример. Мальчик голоден, и он идет к маме за едой. Известно, что он любит только вкусную еду. Поэтому мама пошла на кухню, чтобы ее приготовить. Она знает, что если в продуктах присутствуют ингредиенты x1, x2, x3, x4 и x5, то ее сыну понравится еда, и он будет кушать. Итак, она начала готовить еду из вышеупомянутых ингредиентов, чтобы приготовить блюдо Y.

В данном примере x1, x2, x3, x4 и x5 являются независимыми переменными, а Y зависит от них. Поэтому в будущем можно предсказать не только вкус пищи с помощью этих независимых переменных, но и какие ингредиенты являются наиболее важными.

Мы прогнозируем два исхода событий  —  понравится ли мальчику еда или нет. Таким образом, здесь содержится такой алгоритм классификации, как логистическая регрессия, дерево решений, случайный лес, LDA и т. д. Затем мы измеряем точность алгоритма с помощью отчета о классификации  —  AUC и ROC.

Линейная регрессия  —  один из алгоритмов прогнозирования непрерывной переменной. Обратимся к примеру с мальчиком, который ежедневно ходил по магазинам, чтобы купить конфеты одной марки, например в один день 100, в другой день 66, 71, 78, 86, 99, 45 и т. д.

Мы можем выполнить линейную регрессию, чтобы предсказать, сколько конфет он купит на следующий день. Y_how_many  —  будет зависимой переменной от прошлой покупки (независимая переменная). RMSE (среднеквадратичная ошибка), R-квадратное значение или R-скорректированное квадратное значение  —  все эти показатели выступают метрикой для измерения точности модели.

Читайте также:

Читайте нас в TelegramVK и Яндекс.Дзен


Перевод статьи Swetank Pathak: Understanding data science in a simpler way

Предыдущая статьяДумаете, хеш-карты нельзя отсортировать? Еще как можно!
Следующая статьяОбнаружение вредоносного ПО с помощью алгоритмов МО на облачной платформе Google