25 наборов аудиоданных для исследований

Original article was published by Артур Хайбуллин on Deep Learning on Medium


25 наборов аудиоданных для исследований

Наборы музыкальных данных

FMA предназначен для анализа музыки и состоит из полноразмерного HQ-аудио, предварительно вычисленных характеристик, а также метаданных трека и пользовательского уровня. Этот открытый набор данных был создан для оценки нескольких задач поиска музыкальной информации (MIR). Его размер составляет почти 1000 ГБ.

Открытая коллекция характеристик и метаданных для миллиона треков. Набор не содержит аудио, а только извлеченные характеристики. Аудиосемплы можно получить из таких сервисов, как 7digital, используя код, предоставленный Колумбийским университетом. Размер набора — около 280 ГБ.

Наборы речевых данных

Этот открытый набор данных был создан для определения цифр, произносимых в аудиосемплах. На данный момент он содержит: 3 говорящих, 1500 записей (по 50 с каждой цифрой на говорящего), а также вариации английского произношения. Размер пакета — всего около 10 МБ.

Масштабный корпус, включающий около 1000 часов английской речи. Данные взяты из аудиокниг проекта LibriVox, их размер составляет около 60 ГБ.

Обширный набор данных размером 150 МБ, состоящий из почти 2000 часов речи и предназначенный для определения личности говорящего. Он содержит около 100 000 высказываний 1251 знаменитости, взятых из видео на YouTube. Данные почти равномерно распределены по полу (мужчины составляют 55%). Знаменитости различаются по акцентам, профессиям и возрасту. Наборы для разработки и тестирования не содержат совпадений.

Это корпус унифицированных разговорных статей из английской, немецкой и голландской версий Википедии. Сотни часов аудио и аннотаций можно сопоставить с исходным HTML. Размер всего набора — около 38 ГБ.

Включает 40 000 озвученных подписей к 8 000 изображений, размер которых составляет 4,2 ГБ. Этот корпус был собран в 2015 году в целях исследования мультимодального обучения для неконтролируемого обнаружения речевых шаблонов.

Набор состоит из 1495 аудиозаписей с выступлений TED Talk и их полных расшифровок, созданных компьютерной лабораторией Университета штата Мэн (LIUM).

Набор данных размером 1,4 ГБ включает 65 000 односекундных высказываний из 30 коротких слов, выполненных тысячами разных людей. Выпущен под лицензией Creative Commons-BY 4.0 и разработан для создания простых, но полезных голосовых интерфейсов с общими словами, такими как «да», «нет», цифры и направления движения.

Корпус речевых данных размером 12 ГБ. Текст был взят из нескольких публичных источников, таких как блоги, книги и фильмы, и прочитан пользователями веб-сайта Common Voice. Его основная цель — предоставить данные для обучения и тестирования систем автоматического распознавания речи.

Персидский речевой корпус для распознавания речи и говорящего. Содержит звуковые аудиосемплы сочетаний гласных и согласных фонем современного персидского языка, каждый из которых включает только одну согласную и одну гласную. В наборе содержится 23 согласных и 6 гласных и представлены все их возможные комбинации (138 семплов на каждого говорящего) — всего 30 000 записей.

Набор данных акцентированного английского языка, который пригодится для создания устойчивости к различным акцентам или интонациям.

Этот набор размером около 4 ГБ предназначен для решения задач по распознаванию речи в шумной обстановке. Он содержит реальные, смоделированные и чистые голосовые записи. Реальные представлены 9000 записями 4 говорящих в 4 шумных местах, смоделированные созданы путем наложения нескольких сред поверх речевых высказываний, а чистые записаны без лишних шумов. Скачать этот набор можно здесь.

Речевые данные на английском языке, использующиеся в системе Deep Speech от компании Baidu.

Содержит данные для обучения от 20 пациентов с болезнью Паркинсона и 20 здоровых человек — всего 26 типов звуковых записей размером 20 МБ.

Конечная цель Zero Resource Speech Challenge — построить систему, которая способна с нуля изучить диалог на неизвестном языке лишь с помощью информации, доступной ребенку, изучающему язык. «Нулевой ресурс» («Zero resource») означает отсутствие лингвистических знаний (например, орфографической и лингвистической транскрипции), а не отсутствие информации помимо аудио (визуальные наблюдения, обратная связь и т. д.). Тот факт, что четырехлетние дети способны самостоятельно изучить язык без помощи языковых экспертов, показывает, что эта цель теоретически достижима.

Этот набор данных размером 38,7 ГБ применяется для решения простой задачи классификации — предсказания того, какая буква произносится.

Речевой корпус арабского литературного языка (АЯ) размером 1,5 ГБ, который используется для синтеза речи. Он содержит фонетические и орфографические транскрипции более 3,7 часов АЯ-речи, согласованной с записанной речью на уровне фонем. Аннотации включают ударение на отдельных фонемах.

Корпус был разработан в рамках докторской работы Навара Халабиата (Nawar Halabiat) из Университета Саутгемптона. Записи сделаны на южно-левантийском арабском языке с дамасским акцентом в профессиональной студии. Синтезированная речь, полученная с использованием этого корпуса, представляет собой высококачественный, естественный голос.

Размер корпуса — 440 МБ. Его данные можно применять для акустико-фонетических исследований, а также для разработки и оценки систем автоматического распознавания речи. TIMIT содержит широкополосные записи 630 носителей восьми основных диалектов американского английского, каждый из которых читает десять предложений с фонетически богатым звучанием. Он включает синхронизированные по времени орфографические, фонетические и словесные транскрипции, а также 16-битный файл речевого сигнала с частотой 16 кГц для каждого высказывания.

MELD — улучшенная и расширенная версия набора данных EmotionLines. Он содержит те же экземпляры диалогов, что и EmotionLines, а также аудио и визуальную модальность наряду с текстом. В нем можно найти более 1400 диалогов и 13 000 высказываний из сериала «Друзья», каждое из которых содержит метку эмоции: гнев, отвращение, печаль, радость, нейтральность, удивление и страх. Скачать этот набор можно здесь.

Наборы данных, включающие звуки окружающей среды

Содержит 632 класса звуковых событий и коллекцию из 2 084 320 помеченных вручную звуковых клипов длиной по 10 секунд, взятых из видео на YouTube. Чтобы скачать этот набор, перейдите по ссылке на GitHub.

Включает 6 000 событий, таких как разбивание стекла, выстрелы и крики, разделенных на обучающий набор из 4200 событий и тестовый — из 1800. Чтобы загрузить этот набор данных, нужно зарегистрироваться на сайте Mivia.

Страница включает наборы данных для исследования звуков окружающей среды. Помимо открытых наборов, содержит также частные и коммерческие, а в конце перечислено несколько звуковых онлайн-сервисов, которые можно применять для формирования новых наборов данных для особых исследовательских потребностей.

Наборы разделены на две таблицы:

  • Таблица звуковых событий содержит наборы данных, подходящие для исследований в области автоматического обнаружения звуковых событий и автоматической маркировки звуков.
  • Таблица акустических сцен включает наборы, которые пригодятся для распознавания контекста на основе звука и классификации акустических сцен.

Иерархическая коллекция из более чем 600 звуковых классов, дополненная 297 159 аудиосемплами от Freesound. В результате этого объединения было создано 678 511 аннотаций кандидатов, которые отражают потенциальное присутствие источников звука в аудио клипах. FSD включает множество повседневных звуков: человеческая речь, звуки животных, музыка и звуки, издаваемые вещами — и все это под лицензией Creative Commons. Набор данных предназначен для помощи исследованиям, которые позволят машинам слышать и интерпретировать звук подобно людям.

Freesound — это платформа для совместного создания аудиоколлекций, помеченных вручную и основанных на контенте Freesound.

Этот набор данных размером 6 ГБ содержит 8732 помеченных звуковых отрывка из 10 звуковых классов: шум кондиционера, автомобильный гудок, играющие дети, лай собаки, шум бурения и двигателя, выстрел, отбойный молоток, сирена и уличная музыка. Длина каждого — около 4 секунд. Данные содержат такие атрибуты, как ID — уникальный идентификатор звукового отрывка и Class — тип звука.

Этот набор включает 1302 звуковых записей, в каждой из которых отмечены начало и конец звукового события из 10 классов: шум кондиционера, автомобильный гудок, играющие дети, лай собаки, шум бурения и двигателя, выстрел, отбойный молоток, сирена и уличная музыка. Некоторые записи содержат несколько звуковых событий, но для каждого файла помечены только события из одного класса. Классы взяты из таксономии городских звуков.

Набор предназначен для создания надежного и масштабируемого алгоритма обнаружения птиц. Для решения этой задачи используются наборы данных размером 5,4 ГБ, взятые из реальных проектов по мониторингу биоакустики, и объективная стандартизированная структура оценки.

Читайте также:

Читайте нас в Telegram, VK и Яндекс.Дзен