Bamboolib  —  одна из тех библиотек, при знакомстве с которой вы жалеете, что не узнали о ней раньше. Она может создавать код для функций, написание которых занимает немало времени, например для сложных предложений group by.

Перейдем к делу и разберемся, как работает этот инструмент.

Bamboolib для начинающих и экспертов

Bamboolib рекламируется как инструмент, позволяющий любому человеку проводить анализ данных на Python без особых знаний. И это действительно так!

Библиотека не требует никаких навыков программирования. Она также подойдет для разработчиков, ограниченных во времени, и тех, кто не хочет набирать длинный код для простых задач.

Кроме того, это отличная тренировочная площадка для тех, кто изучает Python. Bamboolib дает возможность каждому новичку проверить сгенерированный код и учиться на нем.

Чтобы понять, будет ли эта библиотека полезна лично вам, познакомьтесь с ее возможностями.

Установка

Установка Bamboolib проста. Если вы не хотите создавать новую среду перед установкой, то просто наберите в терминале pip install — upgrade bamboolib — user. Останется только импортировать библиотеку в Jupyter Notebook, набрав import bamboolib as bam.

После установки нужно загрузить набор данных. В качестве примера будем использовать All Video Games Sales. После загрузки импортируем его и переходим к работе с Bamboolib.

Первые шаги

Просто введите bam, и пользовательский интерфейс предложит вам импортировать набор данных в Jupyter Notebook тремя щелчками мыши.

Type bam > Read CSV file > Navigate to your file > Choose the file name > Open CSV file

Bamboolib импортировал Pandas и создал код самостоятельно. И так будет на протяжении всего проекта.

Подготовка данных

Изменение строки в datetime

Вы загрузили данные и увидели, что столбец даты является строкой. Теперь нажмите на тип столбца (маленькая буква сбоку от названия столбца), выберите новый тип данных, формат и имя, а затем нажмите execute (выполнить).

Как видите, в ячейку был добавлен дополнительный код.

Также, похоже, что столбец user_review является объектом. Исправим это, создав целое число.

Посмотрите на букву сбоку от имени столбца user_review. Вместо i, обозначающего целое число, так указано f несмотря на то, что тип данных был изменен на i. Дело в том, что Bamboolib идентифицировал тип данных как float. Вместо того чтобы выдать ошибку, он просто исправил ее.

Создание нового столбца с другим типом данных и именем

Если вам понадобится новый столбец с другим типом данных и именем, создавать заново ничего не придется. Просто кликните на тип данных столбца, выберите новый формат и имя, а затем нажмите execute. Новый столбец сразу появится в наборе данных.

На изображении ниже видно, что в выбранном столбце meta_score тип данных изменен на float и указано новое имя. В результате был создан новый столбец.

Удаление столбцов

Если какой-то столбец вам больше не нужен, просто введите drop (удалить) в поле поиска, выберите drop, укажите столбец, который хотите убрать, и нажмите execute.

Переименование столбцов

Допустим, вам нужно переименовать столбец. Найдите в поиске rename, выберите столбец, который нужно переименовать, введите новое имя и нажмите execute. Можете переименовать столько столбцов, сколько пожелаете.

Разделение строки

Предположим, вам нужно разделить столбец со списком людей на два столбца: с именем и с фамилией. В качестве примера разделим названия игр.

Просто введите split (разделить) в поле поиска, выберите столбец, который нужно разделить, separator (разделитель) и максимальное количество необходимых столбцов. Готово!

Поскольку это был лишь пример, то избавимся от дополнительных столбцов. Введите в поиск drop (удалить), выберите лишние столбцы и нажмите execute.

Выбор столбцов

Теперь визуализируем несколько столбцов. Для этого выберем название игры, платформу и балл. Затем введем select (выбрать) в строке поиска, выберем нужные столбцы и нажмем execute.

В завершение всех этих шагов Bamboolib создаст код, который может использовать даже тот, у кого не установлена эта библиотека.

Преобразование данных

Фильтрация данных

Если вам потребуется отфильтровать набор данных или создать новый с отфильтрованной информацией, найдите filter (фильтр) в строке поиска, выберите то, что нужно отфильтровать. Если нужно создать новый набор данных, укажите это, и нажмите execute.

Слияние данных

Чтобы соединить два набора данных, выполните поиск по слову merge, выберите два набора данных, укажите тип соединения, выберите ключевой столбец, который нужно использовать для объединения наборов данных, и нажмите execute. Таким способом можно как создать новый набор данных, так и отредактировать текущий.

Извлечение datetime-атрибутов

А что если нужно извлечь строку, к примеру день недели и месяц, из столбца даты? Нужно ли для этого знать код или искать его в Google? С Bamboolib не понадобится ни то, ни другое. Просто найдите свойство extract datetime, выберите столбец date (дата) и укажите то, что хотите извлечь.

Grouping By (группировка)

Group by  —  одна из самых полезных операций, которую можно выполнить с помощью Pandas. Однако иногда она может оказаться довольно сложной. К счастью, Bamboolib упрощает эту задачу. Найдите Group by в поле поиска, выберите столбцы, которые требуется сгруппировать, а затем вычисления, которые хотите произвести.

Попробуем получить количество и средний балл игр для каждой платформы. Оказалось, что PlayStation 4 имеет самый низкий средний балл среди всех платформ.

Визуализация данных

Bamboolib  —  отличный инструмент для быстрой визуализации данных. Например, чтобы создать гистограмму, достаточно нажать на create plot (создать график), выбрать тип фигуры и ось x. Диаграмма готова!

Таким же образом можно создать блочную диаграмму.

Вы можете протестировать эту функцию с другими наборами данных  —  на ваш выбор доступно множество типов диаграмм.

Исследование данных

С Bamboolib процесс исследования данных очень прост. Вы можете получить информацию о любом наборе одним щелчком мыши. Для этого нажмите на Explore DataFrame (Изучить фрейм данных), после чего Bamboolib выдаст сводную статистику со средним значением, медианой, квартилями, стандартным отклонением, количеством наблюдений, пропущенными значениями, количеством положительных и отрицательных наблюдений и многое другое. Библиотека также создает графики, отражающие распределение данных.

Если в наборе данных будет тип DateTime, Bamboolib также создаст графики, показывающие, как изменялись данные в течение времени.

Заключение

Bamboolib обладает огромным потенциалом. И, возможно, в будущем она полностью изменит работу с данными.

Читайте также:

Читайте нас в Telegram, VK и Дзен


Перевод статьи Ismael Araujo: Bamboolib: One of the Most Useful Python Libraries You Have Ever Seen

Предыдущая статьяGeist UI: Утонченная эстетика UI в React
Следующая статьяДизайн системы Netflix