实现全自监督多音高估计

Feb, 2024

Toward Fully Self-Supervised Multi-Pitch Estimation

Frank Cwitkowitz, Zhiyao Duan

TL;DR多音高估计中的多音高估计，监督式学习技术，自监督式学习目标，多声乐曲数据集，卷积自编码器

Abstract

multi-pitch estimation is a decades-long research problem involving the detection of pitch activity associated with concurrent musical events within multi-instrument mixtures. supervised learning techniques have

multi-pitch estimation supervised learning techniques self-supervised learning objectives polyphonic music datasets convolutional autoencoder

发现论文，激发创造

节奏与音高：自监督节奏估计的理解

本文通过实验分析自监督的音高估计模型在节奏估计中的适用性和鲁棒性，探究了输入表示和数据分布之间的关系。

Apr, 2023

多任务自监督预训练用于音乐分类

本文研究应用自监督学习和多任务学习方法预训练音乐编码器，探索编码器结构、损失权重和自监督任务选择对下游音乐分类任务的影响。研究发现，使用多种音乐特定的自监督任务，结合合理的损失权重平衡，可以提高和推广到下游任务。

Feb, 2021

基于可微分数字信号处理和光谱最优传输的无监督谐波参数估计

神经音频信号处理中，通过使用基频调节来增强合成器性能，但是通过使用标准的音频重建损失函数联合训练基频估计器和合成器是一种挑战，从而依赖于外部的基频跟踪器。为了解决这个问题，我们提出使用受到最优传输理论启发的谱损失函数来最小化谱能量的位移。我们通过无监督的自编码任务在谐波信号上拟合谐波模板来验证这种方法。我们使用轻量级编码器共同估计基频和谐波的幅度，并使用可微的谐波合成器重构信号。这种方法为改善神经音频应用中的无监督参数估计提供了有前途的方向。

Dec, 2023

完全自监督的二分类节奏估计

本文提出了一个解决音乐音频全局速度估计问题的方法，采用完全自监督的方法，不依赖任何人工标记数据。该方法利用通用（音乐）音频嵌入已经编码了各种属性的事实，包括关于速度的信息，使其可以方便地适用于下游任务。在与现有最先进的方法进行比较时，我们的方法表现竞争力强，尤其是在对精确速度八度的约束放宽的情况下。

Jan, 2024

MERTech：利用自监督预训练模型和多任务微调进行乐器演奏技术检测

使用自监督学习模型对大规模未标记音乐数据进行预训练并在乐器演奏技术检测任务中进行微调，以解决数据稀缺和类别不平衡问题，通过辅助任务的多任务微调和事件级别预测的后处理方法，该方法在多个乐器演奏技术基准数据集上在帧级别和事件级别指标上均优于先前方法。

Oct, 2023

前向 - 后向卡尔曼滤波无监督分类语音和音高追踪

提出了一种新的算法来将有声语音的检测、基频估计和音高跟踪三个子任务集成成一个单一的过程，并通过使用标准度量标准的组合提出了一个无监督语音分类器来实现音素检测。音高值的估计采用混合自相关技术，通过引入前向 - 后向 Kalman 滤波器来平滑音高轮廓。本研究在实验中表明，所提出的方法与当前最先进的音高检测算法相比具有明显的优势。

Mar, 2021

Deep Autotuner: 用于歌唱表演的音高校准网络

本论文介绍了一种基于数据驱动的自动音高校正方法，该方法利用歌唱声音和伴奏音频相应的频谱图之间的关系来预测音符级别的音高变化。该方法通过神经网络模型进行训练，包括卷积层和门控循环单元，可适用于自由即兴和协调音乐演唱。

Feb, 2020

SPA-SVC：自我监督的歌声转换中的音高增强

在这篇论文中，我们提出了一种自监督的 SPA-SVC 方法，该方法可以改善 SVC 任务中的声音质量，无需额外的数据或增加模型参数。我们通过引入循环音高转换训练策略和结构相似性指数（SSIM）损失，有效提升了 SVC 模型的性能，实验结果表明我们的方法在一般的 SVC 场景和跨域 SVC 场景中都显著提高了模型性能。

Jun, 2024

零样本音乐源分离、转录和合成的统一模型

通过一个三合一的统一模型来对音频进行分离、转录和综合，采用一种 pitch-timbre 分离模块来更好地计算音源之间的关系，从而实现零样本学习。

Aug, 2021

使用无旋律监督预训练提升单音人声合成的音域

基于先前的研究，在一个多歌手的数据集上进行的旋律无监督多说话人预训练方法，提高了单个说话人的声域，同时不降低音色相似性。这种预训练方法可以应用于只包含音频和歌词对的大规模多歌手数据集，并改善了合成歌声的音质和节奏自然度。

Sep, 2023