MUSAN: 音乐、语音和噪声语料库

Oct, 2015

MUSAN: A Music, Speech, and Noise Corpus

David Snyder, Guoguo Chen, Daniel Povey

TL;DR该报告介绍了用于训练声音活动检测（VAD）和音乐 / 语音区分模型的新语料库，该语料库包括来自几种音乐类型的音乐，十二种语言的语音以及各种技术和非技术噪声，我们展示了该语料库在广播新闻上用于音乐 / 语音鉴别和 VAD 用于说话人识别的用途。

Abstract

This report introduces a new corpus of music, speech, and noise. This dataset is suitable for training models for voice activity detection (VAD) and →

voice activity detection music/speech discrimination corpus creative commons license speaker identification

发现论文，激发创造

跨模态音乐处理的带语义注释的 Mosa 数据集

本文介绍了 MOSA（Music mOtion with Semantic Annotation）数据集，它包含由 23 位专业音乐家演奏的 742 个专业音乐表演的高质量三维运动捕捉数据，与音频录音及音高、节拍、乐句、动态、演奏和和谐等音符级的语义注释，是迄今为止最大的音乐领域的交互式数据集。数据集的用途在于交叉模态音乐信息检索（MIR）和音乐内容生成任务，包括从音频、视频和运动数据中检测节拍、下拍、乐句和表现内容，并根据给定的音乐音频生成音乐家的身体动作。数据集和代码可在本文所附网址中获取。

Jun, 2024

MuAViC: 一个用于稳健语音识别和文本翻译的多语言音视频语料库

MuAViC 是首个开放的多语言视听数据集，共提供了 1200 小时覆盖 9 种语言的视听数据，可应用于嘈杂环境下的语音识别和翻译模型构建。

Mar, 2023

一种可扩展的嘈杂语音数据集和在线主观测试框架

本研究提出了一种可以按任意讲话者数量、噪声类型和语音信噪比水平进行横向扩展的 MS-SNSD 有噪语音数据集，在这个基础上，研究者们推出了开源的评估方法，通过客观质量衡量标准和主观意见评分相互印证提升了语音增强算法的性能。

Sep, 2019

歌曲描述数据集：用于音乐与语言评估的音频标题语料库

我们介绍了 “歌曲描述者数据集 (SDD)”，这是一个新的众包语料库，用于评估音乐和语言模型。该数据集包含 1.1k 个人工编写的自然语言描述和 706 个音乐录音的对应，全部都是公开可访问的，且都在创作共用许可证下发布。为了展示我们数据集的用途，我们在三个关键的音乐和语言任务上对一些热门模型进行了基准测试（音乐字幕生成、文本到音乐生成和音乐语言检索）。我们的实验强调了跨数据集评估的重要性，并提供了研究人员如何利用 SDD 来获得更全面的模型性能理解的见解。

Nov, 2023

SOMOS：三星开放式 MOS 数据集用于神经文本转语音合成的评估

该论文介绍了一个大型的神经文本转语音（TTS）数据集 SOMOS，该数据集可以用来训练自动 MOS 预测系统，以评估现代合成器。该数据集由 20k 个来自 200 种 TTS 系统的合成语音组成，提供平衡和充足的领域和长度覆盖率，并在三个英文 Amazon Mechanical Turk 地点上收集 MOS 自然度评估，同时分享了可靠的众包注释实践。研究者提供了 SOTA MOS 预测模型在 SOMOS 数据集上的基线结果，并显示了这些模型在评估 TTS 语音时面临的限制。

Apr, 2022

Common Voice: 一個大規模多語言語音語料庫

Common Voice 是一个为语音技术研究和开发设计的大型多语言转录音频资源，采用众包方式进行数据收集和验证，目前包括 29 种语言，收集了超过 2500 小时的音频数据，实现了多语言端到端的自动语音识别。

Dec, 2019

众包数据中噪音对语音翻译的影响

本研究提出了一种自动的解决 MuST-C 语音翻译数据集中存在的质量问题的方法，使得标准测试集合的质量得到提高，模型发展的结果也得到了一致的认可。

Jun, 2022

MaSS：基于圣经的大型干净语言对齐口语预料库

提出 MaSS 数据集，基于世界各地包含该圣经的语言录制了 8,130 个平行口语表达，通过样本质量的人工评估，证明了该数据集对构建自然语言处理系统（尤其是多语言间的语音转写和翻译任务）的有效性。

Jul, 2019

MLS: 一个大规模的多语言语音研究数据集

本文介绍了 Multilingual LibriSpeech（MLS）数据集，这是一个大型的多语言语音研究语料库，包括 8 种语言，以及相应语言模型和基线自动语音识别模型。该数据集将在 http URL 上免费提供，我们相信它将为 ASR 和 TTS 研究开辟新的途径。

Dec, 2020

计算语言学文档实验用的极低资源语音语料库

这篇论文介绍了一个收集自非洲 Bantu C25 语族中的一种语言 Mboshi 的语音语料库，在几乎零的资源条件下构建了该语料库，并利用其中的数据完成了口语术语发现。该论文讨论了如何收集，清理和处理数据，并将该数据集提供给社区进行可重现的计算语言文献研究和评估。

Oct, 2017