Исследование данных - основные понятия

Данные многое вам скажут, если вы готовы слушать. 

— Джим Бергесон

Данные можно назвать Богом. Все на свете проверяется только благодаря данным. Вы не сможете претендовать на свою собственность, имущество, если у вас нет подтверждающих данных. Невозможно даже удостоверить свою личность при отсутствии соответствующих данных. Все, что мы делаем, покупаем или продаем, порождает данные. Разве это не удивительно?

В настоящее время мы нуждаемся в данных так же сильно, как в кислороде. Данные стали одной из базовых потребностей в нашей жизни. А знаете ли вы, что представляют собой данные в области науки о данных и искусственного интеллекта? Поговорим об этом.

Что такое данные?

Данные — это набор фактической информации, такой как количества, размеры, описания или наблюдения. Данными могут быть цифры, текст, изображение, аудио, видео, графики, таблицы, шаблоны и т. д. Компании анализируют данные своих заказчиков и клиентов, чтобы понимать их поведение.

Зачем нам нужны данные?

Данные могут предоставить нам информацию и ценные сведения о поведении определенной категории людей, сообщества или организации. Крупные компании, такие как Google, Facebook, Amazon, изучают наши модели поведения с помощью данных, чтобы узнать наши потребности, жизненные ситуации, настроения, образ жизни, и рекомендуют нам продукты, музыку, видео, которые отвечают нашему выбору.

Типы данных

Типы данных

В зависимости от формата, данные можно разделить на две группы:

1. Структурированные.

2. Неструктурированные.

Структурированные данные

Данные, имеющие заранее определенный формат, называются структурированными. Как правило, они хранятся в RDBMS — реляционных СУБД (системах управления базами данных). Структурированные данные обычно состоят из цифр или текста. Структурированные данные занимают меньше времени при обработке по сравнению с неструктурированными данными. Структурированные данные бывают двух типов:

  • качественные;
  • количественные.

Качественные данные

Качественные данные, также известные как категориальные данные, представляют характеристики объекта; пол, семейное положение, рейтинг и т.д.

Категориальные переменные, в зависимости от количества значений в категории, подразделяются на два вида:

  • двоичные (или дихотомические): имеют два значения (например, Мужчина/Женщина, Истина/Ложь, Да/Нет и т. д.);
  • политомные: имеют более двух значений (например, Рейтинг: Первый/Второй/Третий; Семейное положение: Женат/Не женат/Разведен и т. д.).

На основе шкал измерений категориальные переменные делятся на следующие виды:

  • номинальные: категориальные переменные, в которой порядок данных не имеет значения, например, Пол, Цвет волос, значения типа Bool, Группы крови и т. д. (ПРИМЕЧАНИЕ: мы можем, если нужно, кодировать номинальные переменные числами, но в произвольном порядке; при этом любые вычислительные операции, будь то вычисление среднего арифметического, медианы или стандартного отклонения, бессмысленны);
  • порядковые: категориальные переменные, в которых важен порядок данных. например, Рейтинг, Оценки, Уровни, Этажи и т. д.
  • интервальные: для категориальных переменных, измеренных на интервальной шкале, значимы как порядок, так и точные различия между значениями, например, Температура, значение рН, Кредитный рейтинг.
  • оценочные: категориальные переменные, измеренные на шкале отношений, содержат порядок, точные значения и абсолютный ноль; следовательно, они используется как для описательной, так и для логической статистики, например, для Плотности, Скорости и т. д.
Практический исследовательский анализ данных, проведенный Сурешем Мукджией и Усманом Ахмедом.

Количественные данные

Данные, которые могут быть выражены в виде чисел и представляют собой измеренные значения, называются количественными. Они также известны как числовые данные. На основе значений числовые данные подразделяются на две группы:

  1. Дискретные — данные, которые являются счетными и могут принимать как числовые, так и категориальные значения, в зависимости от использования. Переменная, представляющая дискретный набор данных, называется дискретной переменной. Дискретные данные всегда имеют фиксированное на данный момент значение, например, Возраст, Количество учащихся в классе, Количество планет и т. д.
  2. Непрерывные — переменные с бесконечным числом числовых значений в определенном диапазоне, например, Вес, Рост и т. д.

ПРИМЕЧАНИЕ: процентные значения также являются непрерывными данными.

Неструктурированные данные

Любые данные, хранящиеся в собственном формате, называются неструктурированными данными. К ним относятся изображения, аудио, видео, сообщения в чате. Для использования неструктурированных данных требуется их предварительная обработка с целью интеллектуального анализа.

Структурированные и неструктурированные данные

Структурированные и неструктурированные данные

Сбор данных

Чтобы выполнить аналитическую работу, самое важное, что нам нужно, — это собрать данные. Сбор данных может осуществляться несколькими способами. Рассмотрим некоторые из них.

Сбор первичных исходных данных

При этом методе необработанные данные генерируются вручную. Осуществляется такой процесс с помощью онлайн-опросов, интервью, наблюдений и т. д. Использование необработанных данных имеет как “плюсы”, так и “минусы”.

Преимущества:

  • возможность получить именно ту информацию, которая необходима;
  • надежность и оригинальность полученных данных;
  • никаких проблем с разрешением на использование данных;
  • приобретение актуальной и свежей информации.

Недостатки:

  • потребность в большом количестве времени;
  • высокая стоимость;
  • необходимость в дополнительной очистке и модификации перед анализом.

Сбор данных из вторичных источников

При этом методе используются сохраненные данные. Источниками являются базы данных или веб-сайты с открытым исходным кодом для сбора и анализа данных.

Преимущества:

  • не отнимает много времени;
  • легкодоступность;
  • как правило, вторичные данные отформатированы в таблицы.

Недостатки:

  • требуется разрешение на доступ.
  • сомнительная надежность данных.

Веб-скрейпинг

При этом методе данные извлекаются из веб-страниц. С помощью некоторых библиотек и общих знаний о HTML можно легко собрать данные с веб-сайтов. Как правило, мы используем веб-скрейпинг при анализе обзоров и комментариев. Библиотеки Python, используемые для веб-скрейпинга, — request, BeautifulSoup, Pandas, Selenium.

ПРИМЕЧАНИЕ: Не все веб-сайты поддерживают веб-скрейпинг. Вам нужно получить разрешение на извлечение данных с таких веб-ресурсов. Несанкционированный сбор данных — это преступление.

Формат файлов

Данные хранятся в нескольких форматах. Рассмотрим наиболее часто используемые файлы данных:

  1. CSV-файлы: файлы значений с разделителями-запятыми представляют собой обычные текстовые файлы, в которых значения строк разделены запятыми. Каждая строка файла представляет собой запись данных, а запятые разделяют запись на разные поля. CSV-файлы обычно встречаются в электронных таблицах и базах данных.
  2. XLSX-файлы: файлы MS Excel хранятся в формате xlsx. В этих файлах значения находятся в строках и столбцах. XLSX-файлы обычно встречаются в электронных таблицах и базах данных.
  3. TXT-файлы: текстовые файлы представлены в формате txt. В файлах этого типа мы храним текстовые данные.
  4. JSON-файлы: JSON буквально означает “JavaScript Object Notation” (“нотация объектов JavaScript”). Эти файлы представляют собой упрощенный текстовой открытый стандарт, предназначенный для обмена данными через Интернет.

Примерами наиболее распространенных файлов являются изображения, PDF-файлы, HTML.

Заключение

Вы получили базовое представление о данных. Оно необходимо каждому, кто хочет изучать науку о данных. Знание основ этой науки значительно облегчит вам большую часть будущей работы. Благодарим за то, что остались с нами до конца.

Читайте также:

Читайте нас в TelegramVK и Яндекс.Дзен


Перевод статьи Nitin Kumar Singh, Data

Предыдущая статьяПошаговое руководство по обучению модели на Vertex AI от Google Cloud
Следующая статья7 лучших библиотек для создания эффективных приложений ReactJS