应对声源分离中的特征不平衡

Sep, 2023

Addressing Feature Imbalance in Sound Source Separation

Jaechang Kim, Jeongyeon Hwang, Soheun Yi, Jaewoong Cho, Jungseul Ok

TL;DR神经网络常常存在特征偏好问题，而忽视了对任务而言至关重要的其他特征。本文提出了一种名为FEABASE（特征平衡通过抑制易特征）的方法，以解决源分离中的特征偏好问题。我们在多通道源分离任务中评估了该方法，其中涉及空间特征和音色特征之间的特征偏好。

Abstract

neural networks often suffer from a feature preference problem, where they tend to overly rely on specific features to solve a task while disregarding other features, even if those neglected features are essentia

发现论文，激发创造

应用于歌声分离的对抗半监督音频源分离技术

本文介绍了一种新的音乐源分离算法，使用对抗训练让分离器的输出更加真实，并取得了对于歌声分离的较好效果。

Oct, 2017

基于乐器标签的端到端声源分离

本研究提出一种扩展的Wave-U-Net模型，通过可变数量源的端到端音乐源分离方法，并在瓶颈处使用仪器标签进行乘性调节，从而提高了分离结果，在此基础上实现了其他类型的调节，如音视频源分离和得分通知源分离。

Nov, 2018

在弱监督下学习分离声音中的强项

本文提出了使用弱标签来训练源分离系统的目标函数和网络架构，使用声音事件分类器评估分离器的性能，并在城市环境中使用合成混合事件数据库对算法的性能进行了基准测试。

Nov, 2019

使用声音分类改进通用声音分离

本文研究基于深度学习、语义嵌入和分类网络应用于通用声源分离，并成功建立了新的最先进的模型，从而提高了声源分离的性能。

Nov, 2019

利用分类信息进行单帧视觉声源分离

本研究旨在通过视觉线索从给定声音混合物中识别声音组件。本研究提出了两个模型，分别使用单个视频帧，以音源类别作为分离过程的信息。在MUSIC数据集实验中，两个模型相比于几种基线方法获得了可比较或更好的性能。

Jul, 2020

用于计算机听觉的源分离和深度可分离卷积

提出一种将源分离和最先进的表示学习技术相结合的特征表示方法来优化计算机听觉（即机器听力），在一组挑战性的电子舞曲（EDM）数据集上训练深度可分离卷积神经网络，将其性能与操作源分离和标准光谱图的卷积神经网络进行比较，表明在有限数据环境下，源分离提高了分类性能。

Dec, 2020

零样本音乐源分离、转录和合成的统一模型

通过一个三合一的统一模型来对音频进行分离、转录和综合，采用一种pitch-timbre分离模块来更好地计算音源之间的关系，从而实现零样本学习。

Aug, 2021

DAVIS: 高质量的音频视觉分离与生成扩散模型

我们提出了DAVIS，一种基于扩散模型的音频-视觉分离框架，通过生成的方式解决音频-视觉声源分离任务。与现有的判别方法相比，DAVIS利用生成性扩散模型和Separation U-Net从高斯噪声开始合成分离后的幅度，以实现在各种类别中高质量声音分离的目标。我们在特定领域的MUSIC数据集和开放领域的AVE数据集上将DAVIS与现有的最先进的判别式音频-视觉分离方法进行比较，结果表明DAVIS在分离质量方面优于其他方法，展示了我们的框架在处理音频-视觉源分离任务上的优势。

Jul, 2023

GASS：使用大规模数据进行音频源分离泛化

通用音频源分离旨在分离任意混音的音频源，无需特定领域（如语音或音乐），但其潜力受到限制，因为大多数现有研究关注主要是声音事件的混音，并且较小的训练数据集也限制了其监督学习的潜力。在这里，我们研究了一种单一的通用音频源分离（GASS）模型，它在大规模数据集上以监督方式训练以分离语音、音乐和声音事件。我们对GASS模型进行了多样的任务评估。我们的强可分离性结果显示了GASS模型的可行性，声音事件和语音分离的竞争性跨领域性能表明了其泛化能力。然而，GASS模型在电影和音乐内容的跨领域分离方面具有挑战性。我们还对每个数据集进行了GASS模型的微调，并在各自的基准测试中始终优于未经预训练的模型。除音乐分离外，所有微调模型均获得了其各自基准测试中的最先进结果。

Sep, 2023

语义分组网络用于音频源分离

最近，音像分离方法利用两种模态间的自然同步来提高音频源分离性能。我们提出了一种名为SGN的新型语义分组网络，可以直接解开声音的个体语义并提取每个来源的高级语义信息。SGN通过可学习的声音类别标记将按类别聚合声源特征，然后通过这些聚合的语义特征将对应的音频源与混合物分离。我们在音乐和通用音频分离基准上进行了广泛的实验，结果表明我们的SGN明显优于以往仅使用音频方法和不使用额外视觉线索的音像模型。

Jul, 2024