音频线索加强的音频视觉分割引导

Feb, 2024

音频线索加强的音频视觉分割引导

Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues

Tianxiang Chen, Zhentao Tan, Tao Gong, Qi Chu, Yue Wu...

TL;DR提出了 AVSAC 方法，通过构建双向音频 - 视觉解码器并采用二向桥接设计，实现了音频线索的增强和音频与视觉模态之间的连续交互，从而缩小模态不平衡、促进整合音频 - 视觉表示的有效学习。此外，提出了音频 - 视觉帧同步策略，通过更好的同步音频组件与视觉特征，有助于更平衡的音频 - 视觉表示学习。大量实验证明，该方法在 AVS 性能方面取得了新的突破。

Abstract

How to effectively interact audio with vision has garnered considerable interest within the multi-modality research field. Recently, a novel audio-visual segmentation (AVS) task has been proposed, aiming to segment the sounding objects in video frames under the guidance of audio cues.

audio-visual segmentation modality imbalance feature representation bidirectional interaction audio-visual representation learning

发现论文，激发创造

双向生成改进音频 - 视觉分割

通过建立视觉特征与声音的鲁棒相关性，利用双向生成框架实现音频 - 视觉分割的改进性能，在 AVS 基准测试中取得新的最先进表现水平，并发布源代码与预训练模型。

Aug, 2023

BAVS：通过整合基础知识引导音频 - 视觉分割

本文提出了一种基于多模态基础知识的两阶段引导式音频 - 视觉分割框架用于消除分割中的背景噪音或离屏音，通过明确建立音频 - 视觉对应关系和在音频 - 视觉树上追踪校准对象标签的方式，实现了真实音频对象的有效分割。

Aug, 2023

音视频分割

本文提出音频与视觉分割（AVS）问题，并通过构建 AVSBench 基准集进行了研究。通过引入一种新颖的方法 —— 时间上的像素级音视频交互模块，可以指导视觉分割过程，同时设计了正则化损失函数以鼓励音视频映射的训练，比较了几种现有方法，发现该方法有望在音频和像素级视觉语义之间搭建桥梁。

Jul, 2022

带语义的音视频分割

本论文提出了一种新的问题 —— 音视频分割（AVS），旨在为可听的视频帧中产生声音的物体输出像素级地图，并构建了第一个 audio-visual segmentation（AVS）基准，即 AVSBench，为声音对象提供像素级注释。通过使用一种基于时间的像素级音视频交互模块注入音频语义指导视觉分割过程并设计一种正则化损失来鼓励训练期间的音视频映射，实验表明我们的方法能够有效地解决这个问题。

Jan, 2023

音视频语义分割进一步探究

本文提出一个新的策略：Visual Post-production (VPO)，旨在构建经济实惠、相对公正的音频 - 视觉语义分割基准数据集，为此引入了像素级音频 - 视觉对比学习方法并验证了该策略的有效性，最终结果表明 VPO 策略构建的数据集能够比 SOTA 模型获得更准确的音频 - 视觉语义分割。

Apr, 2023

听觉分离：通过解混音指导语义分割

本文提出了一种 Audio Unmixing and Semantic Segmentation Network (AUSS)，通过音频解混和遮罩注意力机制，旨在建立音频流与图像像素之间的细粒度对应关系；为了增强模型的鲁棒性，还引入了自监督模块，在 AVSBench 基准测试上实验结果表明，AUSS 在单一源和多源训练集上都可以取得最新的最优效果，成功地缩小了音频和视觉模态之间的差距。

May, 2023

无监督音频视觉分割与模态对齐

通过无监督学习方法 MoCA，在像素级上将音频和视觉图像相互关联，实现音频视觉分割的目标，超过基线方法并在复杂情况下实现了显著的性能提升。

Mar, 2024

音视频分割、声音定位、语义感知声音对象定位

本研究提出了一种音频 - 视觉实例感知分割方法，旨在克服数据集偏差，并通过探索音频 - 视觉语义相关性来实现有效的声音对象分割。

Jul, 2023

将分割任何模型扩展到音频和时间维度进行音频 - 视觉分割

通过分析视频帧之间的上下文跨模态关系，研究将 Segment Anything Model (SAM) 的能力扩展到音频 - 视觉场景序列，提出了一个融合了空时双向音频 - 视觉注意力 (ST-BAVA) 模块的模型，实现了对音频 - 视觉关联的像素级理解，实验结果表明该模型在音频 - 视觉分割任务中表现优于其他方法，尤其是在具有多个源的数据集上获得了 8.3% 的平均交并比增益。

Jun, 2024

通过音频查询来发现声音对象用于音频视觉分割

我们提出了一种基于音频查询的 Transformer 架构 (AQFormer)，通过在视觉特征中利用预定义的音频查询聚集对象信息，建立了音频和视觉模态之间的明确的对象级语义对应关系，并提出了一种基于音频的时间交互模块来在多帧之间交换与声音对象相关的信息，实验结果证明我们的方法在两个 AVS 基准测试集上取得了最先进的性能，尤其在 MS3 设置上取得了 7.1% 的 M_J 增益和 7.6% 的 M_F 增益。

Sep, 2023