Разведочный анализ данных (Exploratory Data Analysis, EDA) — это выявление скрытой информации в наборе данных.
sweetviz — библиотека, которая предоставляет важную информацию о наборе данных без написания большого количества кода.
Итак, приступим!
Сначала установим sweetviz с помощью следующей команды:
pip install sweetviz
Я использую ноутбук Jupyter в редакторе VS CODE. Вы можете выбрать редактор кода по своему усмотрению.
Импортируем sweetviz и библиотеку pandas:
Теперь импортируем набор данных. Я использую набор Titanic, с которым вы, возможно, уже сталкивались при изучении МО.
Датафрейм выглядит так:
Теперь создадим EDA-отчет по набору данных:
Анализируем данные с помощью sweetviz, а затем выводим результаты в браузер в виде HTML-страницы (сайта), которая также сохраняется по умолчанию в текущем каталоге.
Когда вы запустите указанную выше ячейку, в браузере откроется новая вкладка, содержащая важную информацию о наборе данных.
Мы получили всеобъемлющую информацию о наборе данных, а также информацию о каждом его столбце.
Если вы щелкнете по любому из столбцов, на боковой панели веб-страницы откроется подробная статистическая информация по нему.
По различным типам столбцов предоставляется большое количество информации. Также можно воспользоваться несколькими видами визуализаций (в зависимости от типа столбца).
Перейдя на вкладку Associations, вы можете создать график матрицы корреляции.
Мы можем выполнить EDA в отношении обучающих и тестовых данных. Разделение на такие наборы — важный этап, который оказывает решающее влияние на производительность модели.
Вот так выглядит датафрейм:
Столбец Survived
представлен как переменная Y, а остальные столбцы — как переменные x. Разделим набор данных на X и y.
Теперь создадим обучающий и тестовый наборы данных из переменных X и y.
Выполним EDA обучающих и тестовых данных, создав отчет по их сравнению.
Ниже представлен вывод, т.е. отчет по сравнению.
Вы можете визуализировать сравнение одного и того же столбца из наборов обучающих и тестовых данных, щелкнув по нему. После этого откроется боковая панель, содержащая детальную информацию.
Sweetviz предоставляет важные сведения о наборе данных, которые можно упустить во время работы с matplotlib, seaborn и другими библиотеками. Подобную информацию важно учитывать перед реализацией задач МО.
Читайте также:
- Как получить данные в нужном формате с помощью Pandas
- Решение алгоритмических проблем: Поиск повторяющихся элементов в массиве
- Лучшие бесплатные источники наборов данных для анализа
Читайте нас в Telegram, VK и Дзен
Перевод статьи Fareed Khan: Exploratory Data Analysis (EDA) in a single line of code