基于峰值的音频指纹的音乐增强与降噪

Oct, 2023

基于峰值的音频指纹的音乐增强与降噪

Music Augmentation and Denoising For Peak-Based Audio Fingerprinting

Kamil Akesbi, Dorian Desblancs, Benjamin Martin

TL;DR音频指纹技术在短片段中进行歌曲识别方面已经得到广泛应用，但在实际应用中，嘈杂的环境会导致这些系统失效。本研究通过引入一个新的音频增强方法，以真实场景为基础模拟噪声，并提出了一种深度学习模型来提高基于峰值指纹系统的准确性，实验证明该模型的加入能够在嘈杂环境下改善常用音频指纹系统的识别性能。

Abstract

audio fingerprinting is a well-established solution for song identification from short recording excerpts. Popular methods rely on the extraction of sparse representations, generally spectral peaks, and have prov

发现论文，激发创造

使用原始波形的样本级深度卷积神经网络进行音乐自动标记

本文提出了一种基于样本级别深度卷积神经网络的方法，用于从音乐信号中学习表示，并取得了与先前最先进性能可比的结果，而可视化学到的滤波器说明它们对倍频谱很敏感。

Mar, 2017

有监督音乐转录的不变性和数据增强

本文探讨了基于帧的音乐转录的各种模型，重点在于达到人类录音的最新的方法。本文中讨论的具有平移不变性的网络，结合了传统的滤波器和卷积神经网络，在2017年MIREX多基频估计评估测试中成为最佳性能模型。本类模型在log频率域中共享参数，利用音乐的频率不变性来减少模型参数数量并避免对训练数据的过度拟合。本文中的所有模型都是通过MusicNet数据集中具有标记的数据进行监督训练的，并通过随机保持标签的音调变换进行增强。

Nov, 2017

改进Onsets和Frames的对抗学习音乐转录

使用对抗训练方案来处理多标签预测的音乐转录模型，可显著提高模型的准确性和置信度。

Jun, 2019

Demucs: 深度源音频分离器及其在额外未标注数据中的应用

本文使用深度学习等方法对音乐进行源分离研究，提出了一种卷积和循环的模型，同时提出了一种新的方法来利用无标签的音乐数据，这些方法比现有的方法表现更好。

Sep, 2019

音频指纹对比无监督学习

本文介绍了将对比学习的思想应用于音频指纹（AFP）任务中的方法，并基于动量对比（MoCo）框架设计了一种对比学习方法以生成既具有区分性又具有鲁棒性的指纹，并对其在音频识别中的有效性进行了实验证明。

Oct, 2020

解决背景噪音和失真挑战，提高音频指纹识别精确性

提出了一种集成AI和ML的音频指纹算法，以提高在各种环境和应用中的准确性。

Feb, 2024

检测音乐深度伪造容易但实际上很困难

这篇论文展示了对真实音频数据集和假重建数据集进行分类器训练的可能性与出乎意料的容易程度，达到了99.8%的令人信服的准确率，标志着音乐深度伪造检测器的首次发表。然而，通过对其他领域伪造检测的几十年文献的了解，我们强调一个好的测试得分并不是故事的结束，而且指出部署的检测器可能存在的问题与未来研究方向。

May, 2024

音频深度伪造检测的目标增强数据

针对高度可信的音频深度伪造生成器的可用性，通过在模型决策边界上生成音频伪造样本的新型增强方法，提升音频深度伪造检测器的泛化能力。

Jul, 2024

量化自动音乐转录系统中的语料偏差问题

本研究针对自动音乐转录（AMT）系统中存在的语料偏差问题，探讨了其在音乐数据稀缺情况下的表现不足。通过引入两个新的实验测试集，评估了几种尖端AMT系统在不同音乐分布变化下的性能，发现了显著的性能差距，进而揭示了该问题对系统的影响。

Aug, 2024

Synthio：利用合成数据增强小规模音频分类数据集

本研究针对小规模音频分类数据集中标签数据不足的问题，提出了一种名为Synthio的新方法，通过合成音频数据增强数据集。该方法通过优化T2A模型与小规模数据集之间的对齐，结合大语言模型生成多样化的音频标签，从而显著提高了分类准确率，在多项数据集上显示出优于传统基线的性能。

Oct, 2024