Сбор высококачественных данных представляет собой важную часть любого анализа данных или проекта по машинному обучению. В целях экономии вашего драгоценного времени команда WebDataRocks подготовила тщательно отобранный список бесплатных репозиториев с реальными данными, готовыми к использованию в проекте.
Приступим!
Socrata OpenData
Одна из крупнейших и наиболее мощных поисковых систем, в которой размещены тысячи наборов данных по таким темам, как финансы, инфраструктура, транспорт, окружающая среда, экономика и общественная безопасность. Все наборы данных категоризированы с помощью алгоритмов машинного обучения.
Помимо этого, Discovery API от Socrata OpenData предоставляет способ получения доступа ко всем общедоступным данным с платформы. Еще одна отличительная особенность для разработчиков заключается в том, что вызовы API возвращают вложенные объекты JSON, которые легко понять и проанализировать.
Здесь можно найти множество примеров визуализации данных и кратких руководств для проведения интерактивного исследования с помощью диаграмм, а также врапперы для получения доступа к функциям Socrata OpenData из различных серверных языков.
Если вы хотите внести свой вклад в данный проект, прочитайте руководство по публикации.
Kaggle
Kaggle является самой большой платформой и сообществом по науке о данных, которая поражает разнообразием наборов данных, соревнований и примеров проектов. Помимо образовательных целей, она предоставляет возможность получить финансовое вознаграждение в соревнованиях, проводимых компаниями, которые стремятся к лучшему пониманию данных. Однако главная цель этих соревнований — исследование области науки о данных, а не завоевание первых мест.
Следует отметить, что этот ресурс содержит в основном чистые данные, особенно если они является частью соревнования. Наборы данных можно искать по различным тегам.
Вы можете испытать свои силы в следующих открытых соревнованиях:
- Two Sigma: Использование новостей для прогнозирования движения акций
- APTOS 2019 Blindness Detection
- Generative Dog Images
Или попробуйте создать визуализации и модели ML вокруг следующих наборов данных:
FiveThirtyEight
Заинтересованы в data-driven статьях и графиках, созданных авторами блога FiveThirtyEight? Загляните в данные, которые лежат в основе визуализаций. Загрузить данные можно из online-коллекции данных или из репозитория GitHub.
Большинство визуализаций, которые можно найти здесь, являются интерактивными. Попробуйте создать собственный вариант анализа и визуализации.
Репозиторий UCI
Обширная платформа, которая содержит наборы данных для решения задач машинного обучения. Это классическое место для начала путешествия в мир машинного обучения, которое поддерживается Национальным научным фондом. Для каждого набора данных указано его задание по умолчанию, типы атрибутов, типы данных и другие функции. Несмотря на небольшие размеры многих наборов данных, они отлично подходят для выполнения образовательных проектов.
ProPublica
Эта американская некоммерческая организация известна тем, что предлагает универсальное хранилище данных, которое охватывает вопросы здравоохранения, уголовного правосудия, образования, политики, бизнеса, транспорта и финансов. Помимо этого, данные часто обновляются.
Коллекция содержит как платные, так и бесплатные наборы данных. Платные наборы данных, в свою очередь, доступны по академическим, коммерческим, студенческим и журналистским лицензиям.
ProPublica также предоставляет пять API для упрощения получения данных.
Yelp
Искали возможности создать собственный проект, но не знали, с чего начать?
Тогда не упустите отличный шанс улучшить навыки исследования и анализа на Yelp — еще одной платформе, которая предоставляет готовые к использованию данные и поддерживает как новичков, так и опытных специалистов по науке о данных в решении проблем.
Здесь можно не только принять участие в соревнованиях, но и выиграть денежные призы.
После загрузки и воспроизведения данных можно отправить на рассмотрение собственный проект, заполнив заявку. Он может быть представлен в любом формате, подтверждающим использование данных.
Не проходите мимо — это место подходит не только для студентов. Не стесняйтесь участвовать в испытаниях, раскройте свои таланты.
InsideAirbnb
Сервис данных, созданный и поддерживаемый компанией Airbnb. Он содержит уникальную коллекцию данных Airbnb, категоризированных по регионам и странам. Здесь можно просматривать данные по определенному городу и исследовать информативные отчеты с креативными визуализациями.
data.world
Открытое сообщество data.world является настоящим сокровищем для тех, кто увлечен анализом данных. В коллекции доступно более 450 наборов данных на любой вкус и для любых целей. Большинство из них требуют выполнения очистки, а очистка данных является важным этапом любого проекта по науке о данных.
Наборы данных охватывают такие темы, как финансы, преступность, экономика, образование, перепись, образование, окружающую среда, энергетика, спорт, НАСА и многие другие.
Зарегистрироваться очень легко — просто используйте учетную запись GitHub для получения доступа ко всем наборам данных.
Работа с данными также не вызывает затруднений — вы можете писать SQL-запросы через интерфейс сайта, использовать SDK для Python или R или просто загружать файл данных.
Data Hub: Collections
Богатый каталог данных, содержащий наборы данных по различным темам: экономика, климат, образование, логистика, здравоохранение и многие другие. На странице набора данных есть встроенные визуализации, созданные с помощью Plotly, предоставляющие краткий обзор тенденций в мире данных.
Если вы не можете найти необходимые данные, сделайте бесплатный запрос на них.
Вас поразит множество способов интеграции набора данных в используемый инструмент. Здесь есть фрагменты кода, которые показывают, как использовать данные с R, Pandas, Python, JavaScript, cURL и data-cli. Кроме того, можно просто загрузить наборы данных CSV или JSON.
Quandl
Платформа с финансовыми и экономическими данными, помогающими в разработке data-driven стратегий. Здесь можно найти бесплатные и предварительно оплаченные наборы данных. Для извлечения данных Quandl предоставляет бесплатный API, работающий как единый интерфейс. Также можно получить доступ к данным из Python, R и Ruby с помощью модулей и пакетов. Кроме того, здесь доступна надстройка для Excel.
NASA datasets
Увлечены космическими проектами?
Тогда этот репозиторий создан специально для вас. Здесь содержатся данные по астрофизике, гелиофизике, исследованиям Солнечной системы и ресурсы изображений.
Wikipedia
Удивлены, увидев Википедию в списке? Да, ее можно использовать не только в образовательных целях. Википедия также предлагает способы загрузки и запроса данных. Узнать подробности можно в этом руководстве.
The World Bank
Огромный репозиторий, который предоставляет бесплатный доступ к данным по глобальной разработке. Вы можете искать наборы данных по странам, регионам и экономическим или демографическим показателям.
С помощью online-инструментов визуализации можно исследовать данные в интерактивном режиме с помощью диаграмм, таблиц, карт, создавать отчеты, выполнять стилизацию и многое другое. Наборы данных доступны в виде файлов CSV, XML и Excel.
Data.gov
Репозиторий открытых наборов данных от правительственных учреждений США по таким темам, как климат, потребители, образование, экосистемы, энергетика, финансы, производство, наука.
Наборы данных доступны для публичного использования, но иногда необходимо принять лицензионное соглашение перед загрузкой.
Еще одна замечательная особенность заключается в возможности отправлять истории использования данных и принимать участие в различных соревнованиях.
Pew Research Center
Исследовательский центр Пью (Pew Research Center) известен публикацией отчетов об исследованиях и различных видов анализа. Его исследователи предоставляют наборы данных, лежащие в основе докладов, в открытый доступ для общественности. Многие из наборов данных предоставляются в виде файлов .sav, поэтому вам потребуются навыки использования SPSS или R. С их помощью можно находить религиозные, политические, социальные, журналистские и медийные тенденции.
Google Dataset Search
Dataset Search — это мощная поисковая система, предоставляющая удобный интерфейс, через который можно получить доступ к миллионам наборов данных со всего мира. Этот относительно новый продукт от Google уже одобрен учеными, журналистами и студентами. Здесь можно найти научные, социальные, экологические или правительственные данные, объемы которых постоянно растут.
После выполнения запроса данных появится список репозиториев, из которых их можно скачать.
Чтобы опубликовать собственные данные, следуйте этим рекомендациям.
Хотите попрактиковаться в анализе больших данных?
Google Public Datasets
Посетите каталог Cloud Public Datasets Program, в котором можно найти большие наборы данных. Все они хранятся в BigQuery и доступны через Cloud Public Datasets Program. Несмотря на необходимость платить за выполняемые с данными запросы, вы можете воспользоваться 1 ТБ бесплатных запросов.
AWS Public Datasets
Выполнить поиск наборов данных с платформы Amazon Web Services можно через реестр открытых данных. Наборы данных находятся в открытом доступе. Здесь также можно найти множество интересных случаев использования. Они охватывают детали использования данных организациями, внедрения рекомендованных систем, прогнозирования цен на акции и т. д.
Помимо этого, вы можете внести свой вклад, поделившись данными в AWS.
Для начала работы с данными просто загрузите их или получите доступ из облака с помощью EC2 или Hadoop.
Academic Torrents
Распределенная система, которая содержит более 45 ТБ данных для исследований. Обратите внимание на условия лицензионного соглашения — большинство наборов данных разрешено использовать в некоммерческих и образовательных целях.
Список популярных наборов данных:
- ImageNet Large Scale Visual Recognition Challenge (V2017)
- VA: A Large-Scale Database for Aesthetic Visual Analysis
- Google Open Images
Для получения более полного списка наборов данных, перейдите на эту страницу GitHub.
Надеемся, что вы найдете свой идеальный набор данных для проведения data-driven исследований и удовлетворения интереса к тенденциям в определенных областях нашей жизни.
Желаем удачи в выполнении проектов по анализу данных и машинному обучению!
Читайте также:
- Топ-10 ошибок анализа данных
- Как отточить ваши “инстинкты данных”
- Алгоритмы машинного обучения простым языком. Часть 1
Перевод статьи WebDataRocks: Top Free Open Dataset Sources for Data Analysis