语义分组网络用于音频源分离

Jul, 2024

Semantic Grouping Network for Audio Source Separation

Shentong Mo, Yapeng Tian

TL;DR最近，音像分离方法利用两种模态间的自然同步来提高音频源分离性能。我们提出了一种名为SGN的新型语义分组网络，可以直接解开声音的个体语义并提取每个来源的高级语义信息。SGN通过可学习的声音类别标记将按类别聚合声源特征，然后通过这些聚合的语义特征将对应的音频源与混合物分离。我们在音乐和通用音频分离基准上进行了广泛的实验，结果表明我们的SGN明显优于以往仅使用音频方法和不使用额外视觉线索的音像模型。

Abstract

Recently, audio-visual separation approaches have taken advantage of the natural synchronization between the two modalities to boost audio source separation performance. They extracted high-level semantics from v

发现论文，激发创造

视觉对象声音的分离

本文提出了一种共分离训练范式，可以从未标记的多源视频中学习对象级别的声音，通过新颖的训练目标，训练出深度神经网络的分离音频对于外观相似的对象具有一致性可识别的特性，从而在音频源分离和降噪方面获得了最先进的结果。

Apr, 2019

自监督音视频共分割

本文介绍了一种利用神经网络结合自我监督从自然视频学习进行视觉目标分割和音源分离的模型，通过学习来自然视频实现对于神经网络中不同分区域分配不同概念的语义类别，从而实现了音视频训练后的独立声音源分离和图像分割。与基准测试相比，实验证明这种去耦合模型在语义分割和声音源分离任务上表现优异。

Apr, 2019

使用正负网络递归进行视觉声音分离

本篇论文提出了一种名为MinusPlus Network (MP-Net)的新型框架，用于视听分离任务。MP-Net按平均能量的顺序递归地分离声音，并将分离后的声音从混合物中移除，直到混合物为空或仅包含噪声。通过这种方式，MP-Net可以应用于具有任意数量和类型声音的混音中，并且相较于以前的方法取得了最先进的结果。

Aug, 2019

使用声音分类改进通用声音分离

本文研究基于深度学习、语义嵌入和分类网络应用于通用声源分离，并成功建立了新的最先进的模型，从而提高了声源分离的性能。

Nov, 2019

利用分类信息进行单帧视觉声源分离

本研究旨在通过视觉线索从给定声音混合物中识别声音组件。本研究提出了两个模型，分别使用单个视频帧，以音源类别作为分离过程的信息。在MUSIC数据集实验中，两个模型相比于几种基线方法获得了可比较或更好的性能。

Jul, 2020

视觉场景图用于音频源分离

本文提出了一种基于Audio Visual Scene Graph Segmenter (AVSGS)的深度学习模型，通过嵌入场景的视觉结构，并将其分割为子图，实现音频源分离；同时，介绍了一个全新的数据集Audio Separation in the Wild (ASIW)，证明了该方法在音源分离方面的卓越表现。

Sep, 2021

用于混音声源定位的音视频分组网络

本文提出了一种AVGN网络，通过可学习的音频-视觉类别权重直接学习每个音频源的语义特征，可以同时定位多个音频源，达到了先进的音响目标定位效果。

Mar, 2023

音频视觉预测编码引导的声源分离

本论文提出了一种参数高效且有效的音频-视觉预测编码方法，该方法使用ResNet-based视频分析网络和声音分离网络提取音频特征，融合多模态信息并在同一体系结构中预测声音分离掩码来交替地最小化特征之间的预测误差，同时还开发了有效的自监督学习策略。

Jun, 2023

DAVIS: 高质量的音频视觉分离与生成扩散模型

我们提出了DAVIS，一种基于扩散模型的音频-视觉分离框架，通过生成的方式解决音频-视觉声源分离任务。与现有的判别方法相比，DAVIS利用生成性扩散模型和Separation U-Net从高斯噪声开始合成分离后的幅度，以实现在各种类别中高质量声音分离的目标。我们在特定领域的MUSIC数据集和开放领域的AVE数据集上将DAVIS与现有的最先进的判别式音频-视觉分离方法进行比较，结果表明DAVIS在分离质量方面优于其他方法，展示了我们的框架在处理音频-视觉源分离任务上的优势。

Jul, 2023

GASS：使用大规模数据进行音频源分离泛化

通用音频源分离旨在分离任意混音的音频源，无需特定领域（如语音或音乐），但其潜力受到限制，因为大多数现有研究关注主要是声音事件的混音，并且较小的训练数据集也限制了其监督学习的潜力。在这里，我们研究了一种单一的通用音频源分离（GASS）模型，它在大规模数据集上以监督方式训练以分离语音、音乐和声音事件。我们对GASS模型进行了多样的任务评估。我们的强可分离性结果显示了GASS模型的可行性，声音事件和语音分离的竞争性跨领域性能表明了其泛化能力。然而，GASS模型在电影和音乐内容的跨领域分离方面具有挑战性。我们还对每个数据集进行了GASS模型的微调，并在各自的基准测试中始终优于未经预训练的模型。除音乐分离外，所有微调模型均获得了其各自基准测试中的最先进结果。

Sep, 2023