SANGEET: 一份基于 XML 的印度北方音乐研究开放数据集
本文介绍了 Melon Playlist Dataset 这个基于 Melon 音乐流媒体平台的公共音乐数据集,包括 649,091 首曲目和 148,826 个关联播放列表,涵盖了 30,652 种标签,适用于音乐信息检索等任务。该数据集提供了基准解决方案,可用于支持建立具有冷启动问题抵抗力的系统。
Jan, 2021
使用多模态深度学习技术匹配自由形式的文本与音乐在音乐信息检索领域显示出有希望的结果。本研究提出了一个包含音乐丰富语义描述的新开放数据集 WikiMuTe,数据源于维基百科的音乐作品文章目录。使用专门的文本挖掘流程提取覆盖音乐内容各种主题的长短句描述,例如流派、风格、情感、乐器和节奏。展示了利用该数据集训练了一个联合学习文本和音频表示的模型,并进行跨模态检索。该模型在两个任务上进行评估:基于标签的音乐检索和音乐自动标注。结果表明,尽管我们的方法在多个任务上具有最先进的性能,但仍然观察到性能差异取决于用于训练的数据。
Dec, 2023
我们提供了 INDICVOICES 数据集,该数据集包含来自 16237 名发言人的 7348 小时自然和自发的语音,涵盖了 145 个印度地区和 22 种语言。通过本文,我们分享了捕捉印度文化、语言和人口多样性的旅程,为数据收集提供了标准化协议、集中工具、引人入胜的问题、提示和对话场景库,以及质量控制机制和全面的转录指南。我们希望这一开源蓝图能够成为其他多语言地区数据收集工作的全面入门指南。利用 INDICVOICES,我们构建了 IndicASR,这是第一个支持印度宪法第八版中列出的 22 种语言的 ASR 模型。本研究的所有数据、工具、指南、模型和其他资料都将公开提供。
Mar, 2024
介绍了一个用于音频视觉分析音乐表演的数据集,其中包括 44 个简单的多乐器古典音乐作品的音频和视频录音、乐谱以及基于帧和音符的基础事实标注文件。该数据集可以用于 MIR 任务的开发和评估,以及为未来的比较提供基线系统。
Dec, 2016
我们介绍了 “歌曲描述者数据集 (SDD)”,这是一个新的众包语料库,用于评估音乐和语言模型。该数据集包含 1.1k 个人工编写的自然语言描述和 706 个音乐录音的对应,全部都是公开可访问的,且都在创作共用许可证下发布。为了展示我们数据集的用途,我们在三个关键的音乐和语言任务上对一些热门模型进行了基准测试(音乐字幕生成、文本到音乐生成和音乐语言检索)。我们的实验强调了跨数据集评估的重要性,并提供了研究人员如何利用 SDD 来获得更全面的模型性能理解的见解。
Nov, 2023
我们收集了一个高质量的大规模歌唱头部数据集,SingingHead,它包括来自 76 个个体和 8 种音乐类型的超过 27 小时的同步歌唱视频、3D 面部动作、歌唱音频和背景音乐。结合 SingingHead 数据集,我们提出了一个统一的歌唱面部动画框架 UniSinger,实现了通过歌唱音频驱动的 3D 歌唱头部动画和 2D 歌唱肖像视频合成。与 SOTA 的 3D 面部动画和 2D 肖像动画方法进行了广泛比较实验,证明了歌唱头部动画任务中歌唱特定数据集的必要性以及我们统一面部动画框架的良好性能。
Dec, 2023
该论文介绍了一种生成用于混合语言的数据集 HinGE,旨在解决在多语言混合文本和语音中对生成文本进行评估的不足,并证明常用的评估度量标准在混合文本数据上的无效性。该数据集有助于混合语言的自然语言生成研究的进展。
Jul, 2021
音乐元本体论介绍了一种丰富而灵活的语义模型,用于描述与艺术家、作曲、演奏、录音和链接相关的音乐元数据,并通过数据工程的最佳实践来考虑各个利益相关者的需求和角度,从而支持数据对齐、转化和检索。
Nov, 2023
我们发布了一个数据集,包含超过 42,000 个英汉平行句子,旨在填补现有涵盖当代修辞体的数字梵语语料库的空白。此外,我们还发布了来自现代语料库和包含梵语的以前发布的古典时代机器翻译数据集的训练样本,以适应现有的多语言预训练模型。
May, 2023
本研究探讨了基于波形输入和基于视听特征学习的卷积神经网络的两种音乐自动标记设计范式在变量大小的数据集上表现的比较,实验结果表明当训练数据不足时,采用音乐领域假设的基于波形的模型在大规模数据场景中的表现优于基于谱图的模型。
Nov, 2017