实现全自监督多音高估计
本文研究应用自监督学习和多任务学习方法预训练音乐编码器,探索编码器结构、损失权重和自监督任务选择对下游音乐分类任务的影响。研究发现,使用多种音乐特定的自监督任务,结合合理的损失权重平衡,可以提高和推广到下游任务。
Feb, 2021
神经音频信号处理中,通过使用基频调节来增强合成器性能,但是通过使用标准的音频重建损失函数联合训练基频估计器和合成器是一种挑战,从而依赖于外部的基频跟踪器。为了解决这个问题,我们提出使用受到最优传输理论启发的谱损失函数来最小化谱能量的位移。我们通过无监督的自编码任务在谐波信号上拟合谐波模板来验证这种方法。我们使用轻量级编码器共同估计基频和谐波的幅度,并使用可微的谐波合成器重构信号。这种方法为改善神经音频应用中的无监督参数估计提供了有前途的方向。
Dec, 2023
本文提出了一个解决音乐音频全局速度估计问题的方法,采用完全自监督的方法,不依赖任何人工标记数据。该方法利用通用(音乐)音频嵌入已经编码了各种属性的事实,包括关于速度的信息,使其可以方便地适用于下游任务。在与现有最先进的方法进行比较时,我们的方法表现竞争力强,尤其是在对精确速度八度的约束放宽的情况下。
Jan, 2024
使用自监督学习模型对大规模未标记音乐数据进行预训练并在乐器演奏技术检测任务中进行微调,以解决数据稀缺和类别不平衡问题,通过辅助任务的多任务微调和事件级别预测的后处理方法,该方法在多个乐器演奏技术基准数据集上在帧级别和事件级别指标上均优于先前方法。
Oct, 2023
提出了一种新的算法来将有声语音的检测、基频估计和音高跟踪三个子任务集成成一个单一的过程,并通过使用标准度量标准的组合提出了一个无监督语音分类器来实现音素检测。音高值的估计采用混合自相关技术,通过引入前向 - 后向 Kalman 滤波器来平滑音高轮廓。本研究在实验中表明,所提出的方法与当前最先进的音高检测算法相比具有明显的优势。
Mar, 2021
本论文介绍了一种基于数据驱动的自动音高校正方法,该方法利用歌唱声音和伴奏音频相应的频谱图之间的关系来预测音符级别的音高变化。该方法通过神经网络模型进行训练,包括卷积层和门控循环单元,可适用于自由即兴和协调音乐演唱。
Feb, 2020
在这篇论文中,我们提出了一种自监督的 SPA-SVC 方法,该方法可以改善 SVC 任务中的声音质量,无需额外的数据或增加模型参数。我们通过引入循环音高转换训练策略和结构相似性指数(SSIM)损失,有效提升了 SVC 模型的性能,实验结果表明我们的方法在一般的 SVC 场景和跨域 SVC 场景中都显著提高了模型性能。
Jun, 2024
通过一个三合一的统一模型来对音频进行分离、转录和综合,采用一种 pitch-timbre 分离模块来更好地计算音源之间的关系,从而实现零样本学习。
Aug, 2021
基于先前的研究,在一个多歌手的数据集上进行的旋律无监督多说话人预训练方法,提高了单个说话人的声域,同时不降低音色相似性。这种预训练方法可以应用于只包含音频和歌词对的大规模多歌手数据集,并改善了合成歌声的音质和节奏自然度。
Sep, 2023