14 проектов по науке о данных для вашего 14-дневного карантина

Проекты по визуализации

Возможно, самые короткие по срокам проекты визуализации данных! Ниже приведены три интересных набора данных, с помощью которых вы сможете пополнить свои портфолио, создав несколько интересных визуализаций.

Визуализируем коронавирус

Уровень сложности: легкий

Ссылка на набор данных здесь

Визуализация представлена здесь.

Научившись создавать такие визуализации, как показано выше, с помощью Plotly, вы сможете показать, как коронавирус распространился по всему миру с течением времени! Plotly — удивительная библиотека, которая придает визуализации данных динамичность, привлекательность и простоту.

Визуализация Австралийских лесных пожаров

Уровень сложности: легкий

Ссылка на набор данных здесь.

Источник: взято из Vox

Череда лесных пожаров 2019–2020 годов, также известная как «Черное лето», включала последовательность из экстремальных лесных пожаров, первый из которых произошел в июне 2019 года. По данным Википедии, пожары уничтожили приблизительно 18,6 млн га и более 5900 зданий.

Это послужит источником информации для интересного проекта! Используйте свои навыки визуализации данных в Plotly или Matplotlib, чтобы показать масштабы и географический охват лесных пожаров.

Визуализируем температуру поверхности Земли

Уровень сложности: легкий — средний

Ссылка на набор данных здесь.

Источник: William Bossen на Unsplash

Все еще встречаете людей, которые отрицают изменение климата? Создайте несколько визуализаций данных, чтобы показать, как температура поверхности Земли менялась с течением времени. Сделать это можно с помощью линейного графика или очередной анимированной фоновой картограммы.

Бонус: вы можете создать модель прогнозирования, которая покажет, какая температура Земли ожидается через пятьдесят лет.

Разведочный анализ данных 

Разведочный анализ данных (Exploratory Data Analysis (EDA), или Data Exploration) — это ступень в процессе анализа данных, на которой используется ряд методов, обеспечивающих лучшее понимание используемого набора данных.

Исследуем данные от Airbnb в Нью-Йорке

Уровень сложности: средний

Ссылка на набор данных здесь.

Источник: Oliver Niblett на Unsplash

С 2008 года постояльцы и владельцы жилья используют Airbnb (онлайн-площадка для размещения, поиска и краткосрочной аренды частного жилья), чтобы расширить возможности путешествий и предоставить персонализированные способы знакомства с миром. Этот набор данных содержит информацию об объявлениях в Нью-Йорке на 2019 год, местонахождение жилья, цены, отзывы и многое другое.

Вот некоторые вопросы, на которые вы можете попробовать ответить:

  • Какое жилье особенно востребовано и почему?
  • В каких районах чаще снимают жилье, чем в других, и почему?
  •  Существуют ли какие-либо отношения между ценой, количеством отзывов и количеством дней проживания, по которым бронируется определенное жилье?

Определяем наиболее важные факторы, связанные с нехваткой кадров и эффективностью работы сотрудников

Уровень сложности: легкий

Ссылка на набор данных здесь

Источник: Campaign Creators на Unsplash

IBM создала синтетический набор данных, который вы можете использовать, чтобы понять, как различные факторы влияют на нехватку кадров и удовлетворение сотрудников своей работой. Некоторые из переменных включают образование, вовлеченность в работу, рейтинг эффективности и баланс между работой и личной жизнью.

Изучите этот набор данных чтобы посмотреть, есть ли существенные переменные, которые действительно влияют на удовлетворенность сотрудников. Далее посмотрите, сможете ли вы ранжировать переменные от наиболее важных до наименее важных.

Работаем с мировыми рейтингами университетов

Уровень сложности: легкий

Ссылка на набор данных здесь.

Источник: Vasily Koloda на Unsplash

Как думаете, входит ли какой-нибудь университет в вашей стране в список лучших ВУЗов по всему миру? Для начала, что значит быть «лучшим» университетом? Этот набор данных содержит три глобальных рейтинга. Используя эти данные, попытайтесь ответить на следующие вопросы:

  • В каких странах находятся лучшие университеты?
  • Каковы основные факторы, определяющие мировой рейтинг?

Зависят ли успехи в учебе от употребления алкоголя?

Уровень сложности: легкий

Ссылка на набор данных здесь.

Влияет ли алкоголь на оценки учащихся? Если нет, то что тогда влияет? Эти данные были получены в ходе опроса учащихся старшей школы в США на курсах математики и португальского языка. Набор содержит несколько переменных: потребление алкоголя, размер семьи, участие во внеклассных программах.

Этот набор поможет определить взаимосвязь между успеваемостью в школе и различными факторами. В качестве бонуса посмотрите, сможете ли вы предсказать итоговую оценку учащегося на основе других переменных!

Исследуем данные с Pokemon

Уровень сложности: легкий

Ссылка на набор данных здесь.

Источник Pokemon.com

Специально для геймеров! Набор данных, который содержит информацию обо всех 802 покемонах всех семи поколений. Вот несколько вопросов для исследования. 

  • В каком поколении самый сильный покемон? В каком — самый слабый?
  • Какой тип покемонов самый сильный? Какой самый слабый?
  • Можно ли построить классификатор для идентификации легендарного покемона?
  • Существуют ли взаимосвязь между физическими характеристиками и статистикой силы (атака, защита, скорость и т. д.)?

Изучаем факторы, влияющие на продолжительность жизни

Уровень сложности: легкий

Ссылка на набор данных здесь

ВОЗ создала набор данных о состоянии здоровья жителей всех стран на протяжении определенного времени, который включает в себя статистические данные об ожидаемой продолжительности жизни, смертности взрослого населения и многое другое. Изучив взаимосвязи между различными переменными, определите: какой фактор оказывает наибольшее влияние на продолжительность жизни?

Набор данных был подготовлен с целью ответа на следующие вопросы:

  1. Какие прогнозирующие факторы и переменные, выбранные изначально, действительно влияют на продолжительность жизни?
  2.  Должна ли страна с более низкой продолжительностью жизни (<65) увеличить свои расходы на здравоохранение, чтобы улучшить показатель средней продолжительности жизни?
  3.  Как показатели младенческой и взрослой смертности влияют на продолжительность жизни?
  4.  Наблюдается ли положительная или отрицательная зависимость продолжительности жизни от питания, образа жизни, физических упражнений, курения, употребления алкоголя и т. д.
  5. Какое влияние оказывает школьное образование на продолжительность жизни людей?
  6. Наличие положительных или отрицательных отношений между продолжительностью жизни и употреблением алкоголя?
  7. Верно ли, что в странах с высокой плотностью населения средняя продолжительность жизни ниже?
  8. Каково влияние охвата иммунизацией на продолжительность жизни?

Прогнозирование и моделирование

Анализируем ряды динамики потребления энергии

Уровень сложности: средний — продвинутый

Ссылка на набор данных здесь.

Источник: Matthew Henry на Unsplash

Этот набор данных состоит из данных о потребляемом электричестве c сайта PJM (региональная электропередающая организация в США). Используя этот набор данных, попробуйте построить модель временного ряда для прогнозирования потребления энергии. В дополнение к этому посмотрите, сможете ли вы вывести статистику потребления энергии по часам, дням, в период каникул и отпуска, а также выявить тенденции!

Прогнозируем одобрение кредита

Уровень сложности: легкий

Ссылка на набор данных здесь.

Источник: Dmitry Demidko на Unsplash

Набор данных Analytics Vidhya состоит из 615 строк и 13 столбцов по прошлым кредитам, которые были и не были утверждены. Попробуйте создать модель, предсказывающую, будет ли одобрен кредит или нет.

Оцениваем стоимость подержанного автомобиля

Уровень сложности: средний

Ссылка на набор данных здесь.

Источник: Parker Gibbs на Unsplash

Craigslist — крупнейшая в мире платформа продажи подержанных автомобилей для продажи. Набор данных состоит из очищенных данных Craigslist и обновляется каждые несколько месяцев. Попробуйте создать набор данных, который поможет предсказать, будет ли автомобиль переоценен или недооценен.

Определяем мошенничество с банковскими картами

Уровень сложности: средний — продвинутый

Ссылка на набор данных здесь.

Источник: rupixen.com на Unsplash

Данные о 492 мошенничествах из 284 807 транзакций, произошедших за два дня. Набор данных крайне не сбалансирован, на положительный класс (мошенничество) приходится 0,172% всех транзакций. Научитесь работать с несбалансированными наборами данных и создайте модель обнаружения мошенничества с банковскими картами.

Обнаруживаем рак кожи

Уровень сложности: продвинутый
 
Ссылка на набор данных здесь.

Источник: Allie Smith на Unsplash

Посмотрите, сможете ли вы построить нейронную сеть для обнаружения рака кожи с помощью более чем 10000 изображений. Это определенно самый сложный проект, который требует обширных знаний в области нейронных сетей и распознавания изображений. 

Читайте также:


Перевод статьи Terence Shin: 14 Data Science Projects to do During Your 14 Day Quarantine