零样本音乐源分离、转录和合成的统一模型

Aug, 2021

零样本音乐源分离、转录和合成的统一模型

A Unified Model for Zero-shot Music Source Separation, Transcription and Synthesis

Liwei Lin, Qiuqiang Kong, Junyan Jiang, Gus Xia

TL;DR通过一个三合一的统一模型来对音频进行分离、转录和综合，采用一种 pitch-timbre 分离模块来更好地计算音源之间的关系，从而实现零样本学习。

Abstract

We propose a unified model for three inter-related tasks: 1) to \textit{separate} individual sound sources from a mixed music audio, 2) to \textit{transcribe} each sound source to MIDI notes, and 3) to\textit{ synthesize} new pieces based on the timbre of separated sources. The model is inspired by the fact that when humans listen to music, our minds can not

music source separation midi transcription timbre disentanglement zero-shot learning query-by-example

发现论文，激发创造

基于查询学习和弱标注数据的零样本音频源分离

本研究提出了一种基于 Transformer 的声音事件检测系统，采用三组件流水线的整体解决方案来训练一个统一的音频源分离器，该方法使用仅仅少量的弱标记训练数据即可实现多类型音频的分离，并能在零样本情况下学习将音频源进行分离。

Dec, 2021

音色陷阱：一种用于不受乐器限制的音乐转录的低资源框架

Timbre-Trap 是一个新型框架，通过利用音高和音色之间的强分离性，将音乐转录和音频重建相统一。我们通过训练一个 U-Net 模型，同时估计音高显著性和重建复杂谱系数，通过简单的切换机制在解码阶段选择其中之一的输出。我们证明了该框架的性能可与最先进的无特定乐器转录方法相媲美，而只需要少量的带注释数据。

Sep, 2023

通过解耦音色表示实现音乐作曲风格转移

本文介绍一种基于深度学习的音乐曲目排列模型，通过对乐曲音频的编码和解码预测其乐谱，并使用解缠技术将其中代表音乐内容和乐器的因素分离，实现曲式转换。

May, 2019

可微分参数源模型的无监督音乐源分离

本文提出了一种无监督的基于模型的深度学习方法，用于音频源分离，该方法通过参数化源过滤器模型对每个源进行建模，并使用神经网络以基本频率估计源模型的参数来重构观察到的混合音频信号，实验证明该方法具有较高的数据效率和好的分离效果。

Jan, 2022

基于音频查询的音乐源分离

这篇论文提出了一种基于音频查询的音乐源分离方法，可以通过查询信号明确地编码源信息，以及在无查询条件下生成通过潜空间插值连续输出的分离掩模。

Aug, 2019

波形域音乐源分离

本文比较了两种不同的音乐源分离模型：Conv-Tasnet 和 Demucs。实验结果表明，Demucs 模型通过采用恰当的数据增广技术，在音乐分离任务上优于 Conv-Tasnet 模型，同时其语音自然度表现也更佳。

Nov, 2019

基于 Transformer 的序列到序列钢琴转录

本文展示了使用通用 encoder-decoder Transformer 和标准解码方法可实现与专业领域特定设计模型同等效果的自动音乐转录方法，从而取消了任务特定架构的需求，简化了转录，为集中精力于数据集创建和标注而非模型设计提供了可能性。

Jul, 2021

WildMix 数据集和时频变换器模型用于单声道音频源分离

本文提出了一种名为 Spectro-Temporal Transformer 的新型模型来解决混合音频源的分离问题，并介绍了一个挑战性的新数据集 WildMix，该数据集包含来自 25 个不同音频类别的现场录音，使用不同的组合策略混合，该模型在该数据集上超过了各种基线模型。

Nov, 2019

有监督音乐转录的不变性和数据增强

本文探讨了基于帧的音乐转录的各种模型，重点在于达到人类录音的最新的方法。本文中讨论的具有平移不变性的网络，结合了传统的滤波器和卷积神经网络，在 2017 年 MIREX 多基频估计评估测试中成为最佳性能模型。本类模型在 log 频率域中共享参数，利用音乐的频率不变性来减少模型参数数量并避免对训练数据的过度拟合。本文中的所有模型都是通过 MusicNet 数据集中具有标记的数据进行监督训练的，并通过随机保持标签的音调变换进行增强。

Nov, 2017

实时低延迟音乐源分离使用混合的谱图 - TasNet

通过借鉴 Hybrid Demucs 架构，本文提出了混合谱图时域音频分离网络（HS-TasNet），结合了频谱和波形域的优势，为实时低延迟的音乐应用展现了高效分离的潜力。

Feb, 2024