量化自动音乐转录系统中的语料偏差问题
本文利用序列到序列传递学习的多任务自然语言处理模型,在多个不同的乐器转录数据集上对多种音乐乐器进行了联合转录,展示了其在低资源乐器的表现结果显著,同时保持了高质量的表现结果,是多任务自动音乐转录领域的强有力基线。
Nov, 2021
NoteEM是一种自动化的乐曲信息获取方法,能够实现从现实世界的音频记录中以高精度解码出对应的乐曲内容,其主要特点为采用了非对齐监督、伪标签和音高位移等技术。该方法在MAPS数据集上取得了最好的记录水平准确度,并在跨数据集评估中也表现出积极优势。
Apr, 2022
本文提供了音频理解模型预训练策略的广泛比较分析,探讨了预训练数据集(音乐或通用音频)和预训练方法(有监督或无监督)对下游任务的影响,特别是在音乐领域的多项任务中,超大规模有人工注释的音乐数据集上训练的有监督模型实现了最先进的性能,而域限制在音乐领域的无监督模型则在某些情况下能实现优异的有监督学习和无监督学习性能,表现出较高的效率和通用性。
Oct, 2022
提出了一种新的生成方法,DiffRoll,来处理自动音乐转录问题。它将AMT视为有条件的生成任务,从其理论上训练模型来从纯高斯噪声中生成逼真的钢琴卷,因此DiffRoll不需要分类器,可在仅提供钢琴卷的不配对数据集上训练。实验证明,DiffRoll的性能优于其判别式对应物19个百分点,并且其消融研究还表明,其性能优于类似的现有方法4.8个百分点。
Oct, 2022
提出了一种无需注释数据的音乐自动转录模型,通过利用可扩展的合成音频进行预训练和对抗性域混淆,实现了比使用混合注释真实音频数据学习时更高的准确性,在AMT研究领域中,揭示了这种方法的可扩展性和面临的挑战。
Dec, 2023
音乐信息检索领域的自动音乐转录(AMT)是一项核心挑战,旨在将音频信号转换为音乐符号表示,本文扼要回顾了AMT在音乐信号分析中的关键作用,强调了由于音乐和谐的复杂和相互叠加的频谱结构而对AMT的重要性,通过对AMT中现有的机器学习技术的彻底研究,我们探讨了当前模型和方法的进展和限制。尽管有可观的进展,AMT系统尚未达到人类专家的准确度,这在很大程度上是由于音乐和谐的复杂性和对细致解释的需求。本综述批判性评估了全自动和半自动的AMT系统,强调了最小用户干预的重要性,并研究了迄今为止提出的各种方法。通过解决先前技术的限制并提出改进的途径,我们的目标是引导未来的研究朝着能够准确且高效地将复杂的音频信号转化为精确的符号表示的全自动AMT系统。本研究不仅综合了最新的进展,而且为克服AMT中的现有挑战提供了一个路线图,为研究人员提供了有价值的洞察,旨在缩小当前系统和人类级转录准确性之间的差距。
Jun, 2024