Наука о данных

Крутые наборы данных для машинного обучения

01.10.2020

Более 50 открытых наборов для ваших исследований

Хорошее исследование в машинном обучении начинается с подходящего набора данных. Нет необходимости тратить целый вечер на создание собственного набора в MySQL или, что еще хуже, в Excel. В принципе, все что угодно — от статистики COVID-19 до заклинаний Гарри Поттера — можно найти в виде базы данных.

Список лучших агрегаторов баз данных МО

В агрегаторах собраны тысячи баз данных, предназначенных для самых разных целей:

1. Kaggle

Kaggle ежедневно обновляется энтузиастами и содержит одну из крупнейших библиотек баз данных в интернете.

Kaggle — это платформа машинного обучения, управляемая сообществом. Она содержит множество учебных пособий, которые охватывают сотни реальных проблем МО. Конечно, качество данных может различаться, однако все они совершенно бесплатны. Также есть возможность загрузить в библиотеку свою собственную базу данных.

2. Dataset Search от Google

Dataset Search — это надежный источник информации для исследований. В нем все наборы данных отсортированы по:

актуальности;
формату файла;
типу лицензии;
теме;
последнему обновлению.

Базы данных здесь загружаются различными международными организациями, такими как Всемирная Организация Здравоохранения, Statista и Гарвард.

3. Реестр открытых данных на AWS

В реестре открытых данных на AWS любой желающий может поделиться пакетом данных или найти тот, который ему нужен. А с помощью инструментов Amazon Data Analytics можно проводить исследования на основе найденных данных. Среди создателей этих баз данных: Data for Good от Facebook, Space Act Agreement от NASA и институт исследований космоса с помощью космического телескопа.

4. Открытые наборы данных Microsoft Azure

Открытые наборы данных Azure регулярно обновляются и доступны для разработчиков приложений и исследователей. Они содержат правительственные данные США, другие статистические и научные данные, а также информацию из онлайн-сервисов, которую Microsoft собирает о своих пользователях.

Кроме того, Azure предлагает пользователям набор инструментов, которые помогают создавать собственные облачные базы данных, переносить рабочие нагрузки SQL в Azure при сохранении полной совместимости с SQL Server и создавать управляемые данными мобильные и веб-приложения.

5. r/datasets

В SubReddit DataSet любой желающий может опубликовать базы данных с открытым исходным кодом. Загляните туда, чтобы найти классный набор данных и выполнить с ним интересное исследование.

6. Репозиторий машинного обучения UCI

UCI предлагает более 500 различных наборов данных, которые охватывают такие темы, как банковский маркетинг, оценка автомобилей, диагностика рака легких и многое другое. Вы можете сортировать пакеты данных по:

стандартным задачам;
типам данных;
области применения;
предмету.

7. Библиотеки CMU

Университет Карнеги-Меллона располагает собственной коллекцией общедоступных наборов данных, которые можно использовать для исследований. Там вы найдете подробные базы данных об американской культуре, музыке и истории, которые не предоставляют другие агрегаторы.

8. Открытые базы данных на Github

Это отличная коллекция наборов данных с открытым исходным кодом, разделенных по отраслям. Некоторые из библиотек, которые вы можете там найти будут упомянуты здесь позже.

Лучшие открытые наборы данных для машинного обучения и анализа

Доменные базы данных для настоящих энтузиастов машинного обучения:

Исследовательский анализ

Прежде чем изменить мир с помощью исследований по МО, стоит просто попрактиковаться. Вот некоторые наборы данных, которые можно применять для исследовательского анализа — изучения данных путем поиска закономерностей и аномалий, а также последующего использования этой информации для построения моделей МО.

Набор данных Million Song можно использовать для анализа и построения систем рекомендаций. База данных составляет 280 ГБ, но для тестовых исследований вы также можете скачать уменьшенную версию из 10 000 песен, что составляет около 2 ГБ.
Набор данных “Игра престолов” Майлза О’Нила на Kaggle заинтересует поклонников серии книг Джорджа Р. Р. Мартина “Песнь огня и льда”. Он исследует смерти и битвы этого фантастического мира.
База данных LEGO от Рейчела Татмана описывает все официальные детали/наборы LEGO, их цвета и инвентарь.
Наблюдения национального центра об НЛО содержат отчеты о всех наблюдениях неопознанных летающих объектов за последнее столетие.
Мировой рейтинг университетов от Майлза О’Нила охватывает лучшие университеты мира и предоставляет информацию об их рейтинге по качеству образования, занятости выпускников, влиянию и другим факторам.

Глубокое обучение

Глубокое обучение основано на использовании искусственных нейронных сетей, применяемых для решения задач. Вместо того, чтобы писать алгоритм для задачи, программист использует обучение и позволяет машине делать прогнозы самостоятельно.

Обработка изображений и распознавание объектов в системах компьютерного зрения

Набор данных Open Images от Google очень разнообразен и содержит сложные образцы с несколькими объектами на изображении. Он содержит ограничительные рамки и сегментацию объектов, а также метки, которые помогут ориентироваться в более чем 9 миллионах изображений.
VisualData — это агрегатор наборов данных для компьютерного зрения, где вы можете найти медицинские пакеты данных для машинного обучения, пакеты данных изображений и другие интересные образцы для бизнеса, образования и других видов исследований МО.
xView — это одно из крупнейших общедоступных хранилищ изображений. Оно содержит изображения со всего мира, состоящие из сложных сцен и аннотированные с помощью ограничительных рамок.
Если вы ищете качественный крупномасштабный набор данных глубокого обучения, обратите внимание на Kinetics-700. В нем есть видеоклипы различных взаимодействий человека с объектом и человека с человеком, разделенные на классы.
ImageNet — это набор изображений для глубокого компьютерного зрения с более чем 1000 различными классами, построенными в соответствии с иерархией WordNet.
Visual QA содержит неограниченное количество тем с более чем 265 000 изображениями. Его можно применять для лучшего понимания моделирования компьютерного зрения и обработки языка.
База данных MNIST представляет собой набор моделей для распознавания рукописных цифр. Он содержит обучающий набор из более чем 60 000 примеров и тестовый — из 10 000. На веб-сайте вы также найдете таблицу, в которой сравнивается эффективность различных типов классификаторов, применяемых к этому набору данных. Даже новичок может использовать MNIST для обучения своей модели глубокого обучения.
CIFAR-10 представляет собой сборник изображений для тренировки алгоритмов компьютерного зрения. Банк данных состоит из 60 000 цветных изображений 32х32 в 10 классах — по 6000 изображений в каждом. Если этого недостаточно, попробуйте набор данных CIFAR-100.
COCO — это регулярно обновляемая база данных для сегментации объектов и распознавания в контексте, спонсируемая Microsoft, Facebook и Mighty AIR.
Labeled Faces in the Wild — это набор данных для обучения и тестирования моделей распознавания лиц.

Обработка естественного языка, преобразование текста в речь и генерация речи

Создание роботов и голосовых интерфейсов невозможно без речевых систем.

Аудио

VoxCeleb — это аудио-коллекция, которую вы можете использовать для работы с задачами глубокого обучения, такими как обработка естественного языка в реальном времени, распознавание голоса и генерация речи.
На LibriSpeech вы найдете около 1000 часов устной английской речи частотой 16 кГц, полученной из аудиокниг.
Free Spoken Digit Dataset состоит из устных цифровых записей на частоте 8 кГц с почти минимальной тишиной в начале и в конце. Набор данных распространяется с открытым исходным кодом.
Common Voice от Mozilla содержит сотни тысяч записей человеческого голоса. Каждый посетитель веб-сайта Common Voice может внести свой вклад, записывав свой собственный голос.

Текст

WordNet — это лексическая база данных, содержащая слова всех частей речи, сгруппированных в наборы синонимов. Такая структура делает ее превосходным инструментом для обработки естественного языка и лингвистических исследований.
20 Newsgroups — это набор данных, состоящий из более чем 18 000 текстовых документов из 20 различных групп новостей, включая спорт, технологии, искусство, развлечения и т. д.
Sentiment140 представляет собой набор данных из твитов, которые можно применять для анализа тональности текста или синтеза речи.
На IMDb Reviews вы найдете более 50 000 необработанных и предварительно обработанных обзоров фильмов для анализа настроений с помощью глубокого обучения.
Yelp Reviews содержит отзывы пользователей, деловую информацию и изображения, которые вы можете использовать в личных и академических целях.
The Wikipedia Corpus — это огромный набор данных с примерами письменных английских текстов — более 4,5 миллионов статей.
Если вы ищете сегментированный текстовый массив, в котором образцы сгруппированы по возрасту авторов, используйте The Blog Authorship Corpus. Он содержит посты около 20 000 блогеров, собранные из blogger.com в 2004 году.

Другие видео и аудио базы данных для глубокого обучения

YouTube 8M содержит более 6 миллионов видео, метки и около 2,6 миллиарда аудио и визуальных признаков.
В AudioSet от Google можно найти миллионы помеченных 10-секундных клипов, выбранных из видео YouTube.
На FSB вы найдете множество звуковых сэмплов, начиная от человеческой и животной речи и заканчивая музыкой и механическим шумом.
Free Music Archive — это набор данных для анализа музыки.

Системы рекомендаций

Системы рекомендаций жизненно важны для предприятий электронной коммерции, поскольку они содействуют предоставлению клиентам персонализированного опыта.

Amazon Product Data содержит метаданные и отзывы о миллионах товаров, проданных на Amazon. Это невероятный ресурс для всех, кто интересуется системами рекомендаций.
MovieLens — это веб-сайт, который предоставляет своим пользователям персонализированные рекомендации по фильмам. У них также есть набор данных с открытым исходным кодом, который вы можете использовать для обучения своего проекта.
Jester Collaborative Filtering Dataset содержит более 4 миллионов оценок 100 шуток от 73 421 пользователя. Смейтесь до упаду, занимаясь своими исследованиями по МО.

Отраслевые наборы данных

Невозможно охватить все области, где можно применять МО. Примеры ниже подскажут вам несколько идей:

MIMIC-III — это анонимный набор данных с открытым исходным кодом о состоянии здоровья более чем 40 000 пациентов в критическом состоянии. Среди рассматриваемых параметров: демография, показатели жизнедеятельности, лабораторные анализы и прием лекарств.
Google-Landmarks можно применять для распознавания и поиска достопримечательностей.
Чтобы понять фондовый рынок, будет полезно построить интеллектуальное ПО. EOD Stock Prices хранит исторические данные о ценах на акции, дивидендах и сплитах по акциям США.
В Boston Housing Dataset вы найдете данные по жилью в районе Бостона в штате Массачусетс.
Restaurants Health Score в Сан-Франциско, разработанная местным департаментом здравоохранения, предоставляет интересный материал для исследователей, интересующихся общественным здравоохранением и ресторанным бизнесом.
Для получения информации о ценах на жилье и арендной плате в США посетите веб-сайт Zillow Real Estate Research.
The World Bank Global Education Statistics Dataset содержит данные о более чем 4000 международно-сопоставимых показателях доступа к образованию и прогресса в его развитии.
Quandl — это ресурс, который нужно использовать, если вы ищете финансовые и экономические наборы данных для профессионалов в области инвестиций.

Существует так много наборов данных, что возможности для исследований по машинному обучению поистине безграничны. Исследуйте Kaggle, Google Dataset Search и другие ресурсы из списка, чтобы найти то, что вас интересует.