MUSAN: 音乐、语音和噪声语料库
本文介绍了 MOSA(Music mOtion with Semantic Annotation)数据集,它包含由 23 位专业音乐家演奏的 742 个专业音乐表演的高质量三维运动捕捉数据,与音频录音及音高、节拍、乐句、动态、演奏和和谐等音符级的语义注释,是迄今为止最大的音乐领域的交互式数据集。数据集的用途在于交叉模态音乐信息检索(MIR)和音乐内容生成任务,包括从音频、视频和运动数据中检测节拍、下拍、乐句和表现内容,并根据给定的音乐音频生成音乐家的身体动作。数据集和代码可在本文所附网址中获取。
Jun, 2024
MuAViC 是首个开放的多语言视听数据集,共提供了 1200 小时覆盖 9 种语言的视听数据,可应用于嘈杂环境下的语音识别和翻译模型构建。
Mar, 2023
本研究提出了一种可以按任意讲话者数量、噪声类型和语音信噪比水平进行横向扩展的 MS-SNSD 有噪语音数据集,在这个基础上,研究者们推出了开源的评估方法,通过客观质量衡量标准和主观意见评分相互印证提升了 语音增强算法的性能。
Sep, 2019
我们介绍了 “歌曲描述者数据集 (SDD)”,这是一个新的众包语料库,用于评估音乐和语言模型。该数据集包含 1.1k 个人工编写的自然语言描述和 706 个音乐录音的对应,全部都是公开可访问的,且都在创作共用许可证下发布。为了展示我们数据集的用途,我们在三个关键的音乐和语言任务上对一些热门模型进行了基准测试(音乐字幕生成、文本到音乐生成和音乐语言检索)。我们的实验强调了跨数据集评估的重要性,并提供了研究人员如何利用 SDD 来获得更全面的模型性能理解的见解。
Nov, 2023
该论文介绍了一个大型的神经文本转语音(TTS)数据集 SOMOS,该数据集可以用来训练自动 MOS 预测系统,以评估现代合成器。该数据集由 20k 个来自 200 种 TTS 系统的合成语音组成,提供平衡和充足的领域和长度覆盖率,并在三个英文 Amazon Mechanical Turk 地点上收集 MOS 自然度评估,同时分享了可靠的众包注释实践。研究者提供了 SOTA MOS 预测模型在 SOMOS 数据集上的基线结果,并显示了这些模型在评估 TTS 语音时面临的限制。
Apr, 2022
Common Voice 是一个为语音技术研究和开发设计的大型多语言转录音频资源,采用众包方式进行数据收集和验证,目前包括 29 种语言,收集了超过 2500 小时的音频数据,实现了多语言端到端的自动语音识别。
Dec, 2019
提出 MaSS 数据集,基于世界各地包含该圣经的语言录制了 8,130 个平行口语表达,通过样本质量的人工评估,证明了该数据集对构建自然语言处理系统(尤其是多语言间的语音转写和翻译任务)的有效性。
Jul, 2019
本文介绍了 Multilingual LibriSpeech(MLS)数据集,这是一个大型的多语言语音研究语料库,包括 8 种语言,以及相应语言模型和基线自动语音识别模型。该数据集将在 http URL 上免费提供,我们相信它将为 ASR 和 TTS 研究开辟新的途径。
Dec, 2020
这篇论文介绍了一个收集自非洲 Bantu C25 语族中的一种语言 Mboshi 的语音语料库,在几乎零的资源条件下构建了该语料库,并利用其中的数据完成了口语术语发现。该论文讨论了如何收集,清理和处理数据,并将该数据集提供给社区进行可重现的计算语言文献研究和评估。
Oct, 2017