本文提出了一种基于样本级别深度卷积神经网络的方法,用于从音乐信号中学习表示,并取得了与先前最先进性能可比的结果,而可视化学到的滤波器说明它们对倍频谱很敏感。
Mar, 2017
本文探讨了基于帧的音乐转录的各种模型,重点在于达到人类录音的最新的方法。本文中讨论的具有平移不变性的网络,结合了传统的滤波器和卷积神经网络,在2017年MIREX多基频估计评估测试中成为最佳性能模型。本类模型在log频率域中共享参数,利用音乐的频率不变性来减少模型参数数量并避免对训练数据的过度拟合。本文中的所有模型都是通过MusicNet数据集中具有标记的数据进行监督训练的,并通过随机保持标签的音调变换进行增强。
Nov, 2017
使用对抗训练方案来处理多标签预测的音乐转录模型,可显著提高模型的准确性和置信度。
Jun, 2019
本文使用深度学习等方法对音乐进行源分离研究,提出了一种卷积和循环的模型,同时提出了一种新的方法来利用无标签的音乐数据,这些方法比现有的方法表现更好。
Sep, 2019
本文介绍了将对比学习的思想应用于音频指纹(AFP)任务中的方法,并基于动量对比(MoCo)框架设计了一种对比学习方法以生成既具有区分性又具有鲁棒性的指纹,并对其在音频识别中的有效性进行了实验证明。
Oct, 2020
提出了一种集成AI和ML的音频指纹算法,以提高在各种环境和应用中的准确性。
Feb, 2024
这篇论文展示了对真实音频数据集和假重建数据集进行分类器训练的可能性与出乎意料的容易程度,达到了99.8%的令人信服的准确率,标志着音乐深度伪造检测器的首次发表。然而,通过对其他领域伪造检测的几十年文献的了解,我们强调一个好的测试得分并不是故事的结束,而且指出部署的检测器可能存在的问题与未来研究方向。
May, 2024
针对高度可信的音频深度伪造生成器的可用性,通过在模型决策边界上生成音频伪造样本的新型增强方法,提升音频深度伪造检测器的泛化能力。
Jul, 2024
本研究针对自动音乐转录(AMT)系统中存在的语料偏差问题,探讨了其在音乐数据稀缺情况下的表现不足。通过引入两个新的实验测试集,评估了几种尖端AMT系统在不同音乐分布变化下的性能,发现了显著的性能差距,进而揭示了该问题对系统的影响。
Aug, 2024
本研究针对小规模音频分类数据集中标签数据不足的问题,提出了一种名为Synthio的新方法,通过合成音频数据增强数据集。该方法通过优化T2A模型与小规模数据集之间的对齐,结合大语言模型生成多样化的音频标签,从而显著提高了分类准确率,在多项数据集上显示出优于传统基线的性能。
Oct, 2024