迈向音乐字幕生成:生成音乐播放列表描述
通过对多模态数据的构建和深度学习模型的训练,本文提出了一种在音频和歌词之间学习对准关系的方法,并通过此方法优化跨模态对齐,并为音乐搜索和推荐提供了理论和实证结果。
Dec, 2022
本文提出一种机器翻译方法,从一组音乐曲目中自动生成播放列表标题。作者采用序列到序列的框架,基于递归神经网络和 Transformer 来对音乐数据进行处理。考虑到播放列表中歌曲的无序性,作者提出两种方法来消除输入序列的顺序,即打乱和删除位置编码。结果显示,Transformer 模型通常优于 RNN 模型。此外,消除输入序列的顺序进一步提高了性能。
Oct, 2021
考虑到现有音乐数据集缺乏语义描述,本文收集了包括 1,955 个经典音乐录音和文本描述的新数据集,提出了一种计算模型来生成描述音乐内容的句子,并设计了一种组拓扑保持损失来解决经典音乐的非判别性问题。在我们的数据集上,与其他竞争方法相比,该模型在定性和定量实验中均表现出明显的优越性。
Oct, 2022
该研究提出了一种音乐推荐的方法,允许用户使用自由形式的自然语言来引导音乐选择,解决了没有音乐文本描述的挑战,并使用文本合成方法训练了新的三模态模型,该模型的检索音频可通过与视频呈现的视觉风格和语言查询中描述的音乐风格、心情或器乐匹配,以匹配两个输入模态的准确性。
Jun, 2023
我们介绍了 “歌曲描述者数据集 (SDD)”,这是一个新的众包语料库,用于评估音乐和语言模型。该数据集包含 1.1k 个人工编写的自然语言描述和 706 个音乐录音的对应,全部都是公开可访问的,且都在创作共用许可证下发布。为了展示我们数据集的用途,我们在三个关键的音乐和语言任务上对一些热门模型进行了基准测试(音乐字幕生成、文本到音乐生成和音乐语言检索)。我们的实验强调了跨数据集评估的重要性,并提供了研究人员如何利用 SDD 来获得更全面的模型性能理解的见解。
Nov, 2023
本文研究了如何自动生成音乐的文本描述,使用众包音乐评论构建了新数据集,并提出了一种序列到序列模型以及新的评估方法来衡量生成文本的质量。实验结果证明该模型能够生成流畅、有意义的评论,并包含原始音乐的主题和内容信息。
Sep, 2022
调查了在 few-shot 设置中对文本到音乐扩散模型进行个性化的工作。首次探索了将预训练的文本到音频扩散器与两种常用的个性化方法结合的组合。实验了音频特定数据增强对系统整体性能的影响,并评估了不同的训练策略。构建了一个包含提示和音乐片段的新数据集进行评估,使用基于嵌入和基于音乐的量化评估指标,以及用户研究进行定性评估。分析表明相似度度量与用户偏好一致,并且当前的个性化方法更容易学习到节奏音乐结构而非旋律。该研究的代码、数据集和示例资料对研究社区开放。
Sep, 2023
本文提出了不同自然语言处理方法,以利用保存在书面形式中的大量音乐知识,实现自动音乐知识发现,包括文本编制、信息提取、知识图谱生成和情感分析等不同阶段,本文还介绍了涉及弗拉明戈,文艺复兴和流行音乐等大量文献处理的用例,通过数据驱动的分析得出了结论并进行了讨论。
Jul, 2018