Наука о данных

14 наборов данных для датасайенс-проектов

17.05.2022

Без чего нельзя обойтись в датасайенс-проекте? Конечно, без данных!

Именно об этом пойдет речь в сегодняшней статье. Мы поделимся с вами 14 датасетами, которые можно использовать для анализа данных и их визуализации, классификации текстов/изображений, создания системы рекомендаций и многого другого.

Анализ данных

Работать с наборами данных, перечисленными в этом разделе, можно с помощью Pandas и Numpy.

Exam Scores

Набор данных Exam Scores содержит оценки учащихся по различным предметам (математике, чтению, письму), а также другие данные о них, такие как пол, этническая принадлежность и тип ланча. Вы можете провести анализ и получить средний балл по конкретному полу, узнать, сдал/не сдал ученик экзамен и многое другое.

Pokemon Dataset

В Pokemon Dataset содержатся статистические данные по 721 покемону. Там указаны их тип, HP, атака, особая атака, особая защита и скорость. Вы можете поиграть с этими данными и провести поиск, чтобы, например, найти покемона с самыми высокими показателями атаки и защиты.

Если вы новичок в Pandas, настоятельно рекомендуем изучить основы работы с этим набором данных, просмотрев этот туториал.

Netflix movies and TV shows

В базе данных Netflix movies and TV shows собраны все фильмы и сериалы, доступные на Netflix на середину 2021 года. Здесь можно найти такие данные, как название, режиссер, рейтинг, год выпуска и продолжительность. Имеются недостающие данные, а некоторые столбцы нуждаются в очистке перед работой с ними в проекте.

Визуализация данных

Следующие датасеты пригодятся для создания визуализаций. В этих целях применяются matplotlib, seaborn и даже pandas.

FIFA 22 player dataset

Набор данных FIFA 22 player dataset содержит данные о футболистах из видеоигры FIFA, такие как дата рождения футболиста, его рост, вес и общий рейтинг. Самое интересное, что на сайте есть данные игроков не только за 2022 год, но и с 2016 по 2022 год, так что вы можете увидеть эволюцию рейтинга каждого игрока с помощью линейных графиков и других средств визуализации.

Population dataset

Population dataset содержит данные о численности населения за каждые 5 лет с 1955 по 2020 год для большинства стран мира. В наборе данных есть 3 столбца: страна, год и численность населения. Данные пригодны для создания простых визуализаций, таких как круговые или столбчатые диаграммы, боксплоты и гистограммы.

The Simpsons и Avatar The Last Airbender

Почему бы немного не развлечься и не научиться создавать визуализации? На Kaggle есть бесплатные наборы данных таких телешоу, как The Simpsons и Avatar The Last Airbender. Там вы найдете все серии и сценарии и сможете создать визуализации, чтобы показать, у кого больше всего реплик, кто с кем говорит, а также составить облако слов и провести анализ настроений.

Автоматизация

Вместо того чтобы повторять такие задачи, как создание отчетов в Excel, можно автоматизировать их с помощью Python.

Supermarket sales

Большинству из нас хоть раз в жизни приходилось создавать отчет в Excel с использованием набора данных о продажах. Почему бы не автоматизировать этот процесс? Датасет Supermarket sales содержит данные о продажах супермаркета за 3 месяца. Вы можете использовать эти данные для создания сводной таблицы и гистограммы в Excel, используя Python.

Регрессионный анализ

Boston House Prices

Это популярный набор данных для составления линейной регрессии. В датасете содержится информация о домах Бостона — уровень преступности на душу населения по городу, среднее количество комнат в жилище, ставка налога на недвижимость в расчете на $10 000 и многое другое.

Скачать этот набор данных можно с помощью библиотеки sklearn:

from sklearn.datasets import load_boston
boston_dataset = load_boston()

Классификация текста

Если вы занимаетесь NLP (обработкой естественного языка), вам пригодятся эти наборы данных. Для работы с ними необходимо использовать такие библиотеки, как sklearn, NLTK, gensim, spaCy и т. д.

IMDB Dataset

IMDB Dataset содержит 50 тысяч отзывов о фильмах с определенным отношением (положительным/отрицательным). Эти данные отлично подходят для построения модели, которая классифицирует текст как положительный или отрицательный, т. е. проводит бинарную классификацию текста.

60k Stack Overflow Questions

Этот набор данных содержит 60 тысяч вопросов на Stack Overflow с 2016 по 2020 год. Есть 3 типа вопросов: HQ (высококачественные сообщения без единой правки), LQ_EDIT (низкокачественные сообщения с отрицательной оценкой и несколькими правками сообщества) и LQ_CLOSE (низкокачественные сообщения, которые были закрыты сообществом без единой правки).

Вы можете использовать этот датасет при прогнозировании тегов для вопроса. Это более сложная задача, чем в предыдущем проекте, поскольку может быть не только 2, но и больше вариантов для тегов. В этом случае необходимо использовать многозначную классификацию.

Классификация изображений

В отличие от других наборов данных, перечисленных в статье, следующие датасеты содержат в основном изображения, которые можно использовать для построения модели классификации. Для этого необходимо использовать Tensor Flow, Open CV и т. д.

Rock Paper Scissors

Если вам нравится игра “камень-ножницы-бумага”, вы не заскучаете с этим набором данных. Rock Paper Scissors содержит 2892 изображения рук в позиции “камень/ножницы/бумага”. Он обычно используется для классификации изображений, но ему можно найти и другие применения.

Face Mask Detection

Этот набор данных состоит из 1376 изображений. На 690 изображениях люди носят маску, а на 686 картинках маски нет.

Вы можете использовать этот датасет для построения модели, которая определяет, носит ли человек маску на лице. В конце работы над проектом наденьте маску и с помощью камеры компьютера самостоятельно протестируйте эту модель.

Система рекомендаций

Вы когда-нибудь задумывались над тем, каким образом такие компании, как Netflix и YouTube, рекомендуют пользователям фильмы и видео? Вы можете использовать приведенный ниже набор данных для создания собственной системы рекомендаций и понять, как она работает.

MovieLens

Эта база данных содержит 20 миллионов оценок и 465 000 случаев использования тегов, примененных 138 000 пользователями к 27 000 фильмов. Идеально подходит для тех, кто хочет создать свою систему рекомендаций фильмов с нуля.