Audio Datasets

Наборы музыкальных данных

Free Music Archive

FMA предназначен для анализа музыки и состоит из полноразмерного HQ-аудио, предварительно вычисленных характеристик, а также метаданных трека и пользовательского уровня. Этот открытый набор данных был создан для оценки нескольких задач поиска музыкальной информации (MIR). Его размер составляет почти 1000 ГБ.

Million Song Dataset

Открытая коллекция характеристик и метаданных для миллиона треков. Набор не содержит аудио, а только извлеченные характеристики. Аудиосемплы можно получить из таких сервисов, как 7digital, используя код, предоставленный Колумбийским университетом. Размер набора — около 280 ГБ.

Наборы речевых данных

Free Spoken Digit Dataset

Этот открытый набор данных был создан для определения цифр, произносимых в аудиосемплах. На данный момент он содержит: 3 говорящих, 1500 записей (по 50 с каждой цифрой на говорящего), а также вариации английского произношения. Размер пакета — всего около 10 МБ.

LibriSpeech

Масштабный корпус, включающий около 1000 часов английской речи. Данные взяты из аудиокниг проекта LibriVox, их размер составляет около 60 ГБ.

VoxCeleb

Обширный набор данных размером 150 МБ, состоящий из почти 2000 часов речи и предназначенный для определения личности говорящего. Он содержит около 100 000 высказываний 1251 знаменитости, взятых из видео на YouTube. Данные почти равномерно распределены по полу (мужчины составляют 55%). Знаменитости различаются по акцентам, профессиям и возрасту. Наборы для разработки и тестирования не содержат совпадений.

Spoken Wikipedia Corpora

Это корпус унифицированных разговорных статей из английской, немецкой и голландской версий Википедии. Сотни часов аудио и аннотаций можно сопоставить с исходным HTML. Размер всего набора — около 38 ГБ.

Flickr Audio Caption Corpus

Включает 40 000 озвученных подписей к 8 000 изображений, размер которых составляет 4,2 ГБ. Этот корпус был собран в 2015 году в целях исследования мультимодального обучения для неконтролируемого обнаружения речевых шаблонов.

TED-LIUM

Набор состоит из 1495 аудиозаписей с выступлений TED Talk и их полных расшифровок, созданных компьютерной лабораторией Университета штата Мэн (LIUM).

Speech Commands Dataset

Набор данных размером 1,4 ГБ включает 65 000 односекундных высказываний из 30 коротких слов, выполненных тысячами разных людей. Выпущен под лицензией Creative Commons-BY 4.0 и разработан для создания простых, но полезных голосовых интерфейсов с общими словами, такими как «да», «нет», цифры и направления движения.

Common Voice

Корпус речевых данных размером 12 ГБ. Текст был взят из нескольких публичных источников, таких как блоги, книги и фильмы, и прочитан пользователями веб-сайта Common Voice. Его основная цель — предоставить данные для обучения и тестирования систем автоматического распознавания речи.

Persian Consonant Vowel Combination (PCVC) Speech Dataset

Персидский речевой корпус для распознавания речи и говорящего. Содержит звуковые аудиосемплы сочетаний гласных и согласных фонем современного персидского языка, каждый из которых включает только одну согласную и одну гласную. В наборе содержится 23 согласных и 6 гласных и представлены все их возможные комбинации (138 семплов на каждого говорящего) — всего 30 000 записей.

VoxForge

Набор данных акцентированного английского языка, который пригодится для создания устойчивости к различным акцентам или интонациям.

CHIME

Этот набор размером около 4 ГБ предназначен для решения задач по распознаванию речи в шумной обстановке. Он содержит реальные, смоделированные и чистые голосовые записи. Реальные представлены 9000 записями 4 говорящих в 4 шумных местах, смоделированные созданы путем наложения нескольких сред поверх речевых высказываний, а чистые записаны без лишних шумов. Скачать этот набор можно здесь.

2000 HUB5 English

Речевые данные на английском языке, использующиеся в системе Deep Speech от компании Baidu.

Parkinson Speech Dataset

Содержит данные для обучения от 20 пациентов с болезнью Паркинсона и 20 здоровых человек — всего 26 типов звуковых записей размером 20 МБ.

Zero Resource Speech Challenge

Конечная цель Zero Resource Speech Challenge — построить систему, которая способна с нуля изучить диалог на неизвестном языке лишь с помощью информации, доступной ребенку, изучающему язык. «Нулевой ресурс» («Zero resource») означает отсутствие лингвистических знаний (например, орфографической и лингвистической транскрипции), а не отсутствие информации помимо аудио (визуальные наблюдения, обратная связь и т. д.). Тот факт, что четырехлетние дети способны самостоятельно изучить язык без помощи языковых экспертов, показывает, что эта цель теоретически достижима.

ISOLET DataSet

Этот набор данных размером 38,7 ГБ применяется для решения простой задачи классификации — предсказания того, какая буква произносится.

Arabic Speech Corpus

Речевой корпус арабского литературного языка (АЯ) размером 1,5 ГБ, который используется для синтеза речи. Он содержит фонетические и орфографические транскрипции более 3,7 часов АЯ-речи, согласованной с записанной речью на уровне фонем. Аннотации включают ударение на отдельных фонемах.

Корпус был разработан в рамках докторской работы Навара Халабиата (Nawar Halabiat) из Университета Саутгемптона. Записи сделаны на южно-левантийском арабском языке с дамасским акцентом в профессиональной студии. Синтезированная речь, полученная с использованием этого корпуса, представляет собой высококачественный, естественный голос.

TIMIT Corpus

Размер корпуса — 440 МБ. Его данные можно применять для акустико-фонетических исследований, а также для разработки и оценки систем автоматического распознавания речи. TIMIT содержит широкополосные записи 630 носителей восьми основных диалектов американского английского, каждый из которых читает десять предложений с фонетически богатым звучанием. Он включает синхронизированные по времени орфографические, фонетические и словесные транскрипции, а также 16-битный файл речевого сигнала с частотой 16 кГц для каждого высказывания.

Multimodal EmotionLines Dataset (MELD)

MELD — улучшенная и расширенная версия набора данных EmotionLines. Он содержит те же экземпляры диалогов, что и EmotionLines, а также аудио и визуальную модальность наряду с текстом. В нем можно найти более 1400 диалогов и 13 000 высказываний из сериала «Друзья», каждое из которых содержит метку эмоции: гнев, отвращение, печаль, радость, нейтральность, удивление и страх. Скачать этот набор можно здесь.

Наборы данных, включающие звуки окружающей среды

AudioSet

Содержит 632 класса звуковых событий и коллекцию из 2 084 320 помеченных вручную звуковых клипов длиной по 10 секунд, взятых из видео на YouTube. Чтобы скачать этот набор, перейдите по ссылке на GitHub.

Mivia Audio Events Dataset

Включает 6 000 событий, таких как разбивание стекла, выстрелы и крики, разделенных на обучающий набор из 4200 событий и тестовый — из 1800. Чтобы загрузить этот набор данных, нужно зарегистрироваться на сайте Mivia.

Environmental Audio Datasets

Страница включает наборы данных для исследования звуков окружающей среды. Помимо открытых наборов, содержит также частные и коммерческие, а в конце перечислено несколько звуковых онлайн-сервисов, которые можно применять для формирования новых наборов данных для особых исследовательских потребностей.

Наборы разделены на две таблицы:

  • Таблица звуковых событий содержит наборы данных, подходящие для исследований в области автоматического обнаружения звуковых событий и автоматической маркировки звуков.
  • Таблица акустических сцен включает наборы, которые пригодятся для распознавания контекста на основе звука и классификации акустических сцен.

FSD & Freesound

Иерархическая коллекция из более чем 600 звуковых классов, дополненная 297 159 аудиосемплами от Freesound. В результате этого объединения было создано 678 511 аннотаций кандидатов, которые отражают потенциальное присутствие источников звука в аудио клипах. FSD включает множество повседневных звуков: человеческая речь, звуки животных, музыка и звуки, издаваемые вещами — и все это под лицензией Creative Commons. Набор данных предназначен для помощи исследованиям, которые позволят машинам слышать и интерпретировать звук подобно людям.

Freesound — это платформа для совместного создания аудиоколлекций, помеченных вручную и основанных на контенте Freesound.

Urban Sound Classification

Этот набор данных размером 6 ГБ содержит 8732 помеченных звуковых отрывка из 10 звуковых классов: шум кондиционера, автомобильный гудок, играющие дети, лай собаки, шум бурения и двигателя, выстрел, отбойный молоток, сирена и уличная музыка. Длина каждого — около 4 секунд. Данные содержат такие атрибуты, как ID — уникальный идентификатор звукового отрывка и Class — тип звука.

Urban Sound Dataset

Этот набор включает 1302 звуковых записей, в каждой из которых отмечены начало и конец звукового события из 10 классов: шум кондиционера, автомобильный гудок, играющие дети, лай собаки, шум бурения и двигателя, выстрел, отбойный молоток, сирена и уличная музыка. Некоторые записи содержат несколько звуковых событий, но для каждого файла помечены только события из одного класса. Классы взяты из таксономии городских звуков.

Bird Audio Detection challenge

Набор предназначен для создания надежного и масштабируемого алгоритма обнаружения птиц. Для решения этой задачи используются наборы данных размером 5,4 ГБ, взятые из реальных проектов по мониторингу биоакустики, и объективная стандартизированная структура оценки.

Читайте также:

Читайте нас в Telegram, VK и Яндекс.Дзен


Перевод статьи Christopher Dossman: Over 1.5 TB’s of Labeled Audio Datasets

Предыдущая статьяУдаленные вызовы процедур с запросом-ответом
Следующая статьяСинхронизация Git-репозиториев в режиме реального времени