视觉场景图用于音频源分离

ICCVSep, 2021

Visual Scene Graphs for Audio Source Separation

Moitreya Chatterjee, Jonathan Le Roux, Narendra Ahuja, Anoop Cherian

TL;DR本文提出了一种基于 Audio Visual Scene Graph Segmenter (AVSGS) 的深度学习模型，通过嵌入场景的视觉结构，并将其分割为子图，实现音频源分离；同时，介绍了一个全新的数据集 Audio Separation in the Wild (ASIW)，证明了该方法在音源分离方面的卓越表现。

Abstract

State-of-the-art approaches for visually-guided audio source separation typically assume sources that have characteristic sounds, such as musical instruments. These approaches often ignore the visual context of t

audio source separation visual context audio visual scene graph segmenter recursive neural network asiw

发现论文，激发创造

通用的视听情景感知音频分离中的隐形声音分离

该论文介绍了一种名为 “音频 - 视觉场景感知分离”（AVSA-Sep）的新框架，通过语义解析器和基于场景的分离器，成功分离了可见和不可见声音，并通过联合训练和跨模态对齐提高了效果。

Oct, 2023

音视频分割

本文提出音频与视觉分割（AVS）问题，并通过构建 AVSBench 基准集进行了研究。通过引入一种新颖的方法 —— 时间上的像素级音视频交互模块，可以指导视觉分割过程，同时设计了正则化损失函数以鼓励音视频映射的训练，比较了几种现有方法，发现该方法有望在音频和像素级视觉语义之间搭建桥梁。

Jul, 2022

自监督音视频共分割

本文介绍了一种利用神经网络结合自我监督从自然视频学习进行视觉目标分割和音源分离的模型，通过学习来自然视频实现对于神经网络中不同分区域分配不同概念的语义类别，从而实现了音视频训练后的独立声音源分离和图像分割。与基准测试相比，实验证明这种去耦合模型在语义分割和声音源分离任务上表现优异。

Apr, 2019

双向生成改进音频 - 视觉分割

通过建立视觉特征与声音的鲁棒相关性，利用双向生成框架实现音频 - 视觉分割的改进性能，在 AVS 基准测试中取得新的最先进表现水平，并发布源代码与预训练模型。

Aug, 2023

带语义的音视频分割

本论文提出了一种新的问题 —— 音视频分割（AVS），旨在为可听的视频帧中产生声音的物体输出像素级地图，并构建了第一个 audio-visual segmentation（AVS）基准，即 AVSBench，为声音对象提供像素级注释。通过使用一种基于时间的像素级音视频交互模块注入音频语义指导视觉分割过程并设计一种正则化损失来鼓励训练期间的音视频映射，实验表明我们的方法能够有效地解决这个问题。

Jan, 2023

音视频语义分割进一步探究

本文提出一个新的策略：Visual Post-production (VPO)，旨在构建经济实惠、相对公正的音频 - 视觉语义分割基准数据集，为此引入了像素级音频 - 视觉对比学习方法并验证了该策略的有效性，最终结果表明 VPO 策略构建的数据集能够比 SOTA 模型获得更准确的音频 - 视觉语义分割。

Apr, 2023

听觉分离：通过解混音指导语义分割

本文提出了一种 Audio Unmixing and Semantic Segmentation Network (AUSS)，通过音频解混和遮罩注意力机制，旨在建立音频流与图像像素之间的细粒度对应关系；为了增强模型的鲁棒性，还引入了自监督模块，在 AVSBench 基准测试上实验结果表明，AUSS 在单一源和多源训练集上都可以取得最新的最优效果，成功地缩小了音频和视觉模态之间的差距。

May, 2023

利用基础模型进行无监督音频 - 视觉分割

语音 - 视觉分割（AVS）通过像素级精确在视觉场景中描绘可听到的对象。我们提出了一种新的跨模态语义过滤（CMSF）方法，以解决这个问题，并利用现成的多模态基础模型来准确地关联潜在的音频 - 掩码对。我们的无监督方法在复杂情景中的多个听觉对象上表现优异，特别是在现有监督 AVS 方法在重叠前景对象方面表现困难的情况下，仍能准确地分割重叠的听觉对象。

Sep, 2023

用于混音声源定位的音视频分组网络

本文提出了一种 AVGN 网络，通过可学习的音频 - 视觉类别权重直接学习每个音频源的语义特征，可以同时定位多个音频源，达到了先进的音响目标定位效果。

Mar, 2023

使用 AudioScope 探索野外：屏幕上声音的无监督音频 - 视觉分离

本研究提出了一种名为 AudioScope 的音频 - 视觉分离框架，在无监督培训下从自然视频中分离屏幕上的声源。使用混合不变训练（MixIT）对混合物进行训练并在电影与音频特征之间调用注意力来识别音频 - 视觉相似性并抑制屏幕外声音。

Nov, 2020