超越视域：处理部分丢失的模态在音频 - 视觉语义分割中

AAAIDec, 2023

超越视域：处理部分丢失的模态在音频 - 视觉语义分割中

Segment Beyond View: Handling Partially Missing Modality for Audio-Visual Semantic Segmentation

Renjie Wu, Hu Wang, Feras Dayoub, Hsiang-Ting Chen

TL;DR提出了一种新的超出视野语义分割任务和一种名为 SBV 的音频 - 视觉语义分割方法，该方法使用了一个教师 - 学生蒸馏模型（Omni2Ego），通过辅助视觉输入（利用全景信息）和听觉输入（利用 8 通道音频）来推断超出视野范围内物体的语义分割，从而解决了增强现实设备在用户安全方面的挑战。SBV 在比较评估中表现优于现有模型，在不同视野范围和单声道音频设置下表现稳定。

Abstract

augmented reality (AR) devices, emerging as prominent mobile interaction platforms, face challenges in user safety, particularly concerning oncoming vehicles. While some solutions leverage onboard camera arrays,

augmented reality user safety out-of-view semantic segmentation audio-visual semantic segmentation field-of-view

发现论文，激发创造

双向生成改进音频 - 视觉分割

通过建立视觉特征与声音的鲁棒相关性，利用双向生成框架实现音频 - 视觉分割的改进性能，在 AVS 基准测试中取得新的最先进表现水平，并发布源代码与预训练模型。

Aug, 2023

带语义的音视频分割

本论文提出了一种新的问题 —— 音视频分割（AVS），旨在为可听的视频帧中产生声音的物体输出像素级地图，并构建了第一个 audio-visual segmentation（AVS）基准，即 AVSBench，为声音对象提供像素级注释。通过使用一种基于时间的像素级音视频交互模块注入音频语义指导视觉分割过程并设计一种正则化损失来鼓励训练期间的音视频映射，实验表明我们的方法能够有效地解决这个问题。

Jan, 2023

音视频语义分割进一步探究

本文提出一个新的策略：Visual Post-production (VPO)，旨在构建经济实惠、相对公正的音频 - 视觉语义分割基准数据集，为此引入了像素级音频 - 视觉对比学习方法并验证了该策略的有效性，最终结果表明 VPO 策略构建的数据集能够比 SOTA 模型获得更准确的音频 - 视觉语义分割。

Apr, 2023

音视频分割

本文提出音频与视觉分割（AVS）问题，并通过构建 AVSBench 基准集进行了研究。通过引入一种新颖的方法 —— 时间上的像素级音视频交互模块，可以指导视觉分割过程，同时设计了正则化损失函数以鼓励音视频映射的训练，比较了几种现有方法，发现该方法有望在音频和像素级视觉语义之间搭建桥梁。

Jul, 2022

音频线索加强的音频视觉分割引导

提出了 AVSAC 方法，通过构建双向音频 - 视觉解码器并采用二向桥接设计，实现了音频线索的增强和音频与视觉模态之间的连续交互，从而缩小模态不平衡、促进整合音频 - 视觉表示的有效学习。此外，提出了音频 - 视觉帧同步策略，通过更好的同步音频组件与视觉特征，有助于更平衡的音频 - 视觉表示学习。大量实验证明，该方法在 AVS 性能方面取得了新的突破。

Feb, 2024

视角鸟瞰语义分割的半监督学习

本文提出了一种新颖的半监督框架，用于通过利用未标记的图像在训练过程中提高视觉鸟瞰（BEV）语义分割的性能，包括使用一致性损失约束模型在语义预测和 BEV 特征上，以及一种名为联合旋转的新颖且有效的数据增强方法，在保持前视图像与 BEV 语义分割之间的几何关系的同时扩充数据集。对 nuScenes 和 Argoverse 数据集进行的大量实验证明了我们的半监督框架可以有效提高预测准确性。据我们所知，这是第一项利用未标记数据改进视觉 BEV 语义分割性能的工作，代码将公开提供。

Aug, 2023

将分割任何模型扩展到音频和时间维度进行音频 - 视觉分割

通过分析视频帧之间的上下文跨模态关系，研究将 Segment Anything Model (SAM) 的能力扩展到音频 - 视觉场景序列，提出了一个融合了空时双向音频 - 视觉注意力 (ST-BAVA) 模块的模型，实现了对音频 - 视觉关联的像素级理解，实验结果表明该模型在音频 - 视觉分割任务中表现优于其他方法，尤其是在具有多个源的数据集上获得了 8.3% 的平均交并比增益。

Jun, 2024

无监督音频视觉分割与模态对齐

通过无监督学习方法 MoCA，在像素级上将音频和视觉图像相互关联，实现音频视觉分割的目标，超过基线方法并在复杂情况下实现了显著的性能提升。

Mar, 2024

BAVS：通过整合基础知识引导音频 - 视觉分割

本文提出了一种基于多模态基础知识的两阶段引导式音频 - 视觉分割框架用于消除分割中的背景噪音或离屏音，通过明确建立音频 - 视觉对应关系和在音频 - 视觉树上追踪校准对象标签的方式，实现了真实音频对象的有效分割。

Aug, 2023

听觉分离：通过解混音指导语义分割

本文提出了一种 Audio Unmixing and Semantic Segmentation Network (AUSS)，通过音频解混和遮罩注意力机制，旨在建立音频流与图像像素之间的细粒度对应关系；为了增强模型的鲁棒性，还引入了自监督模块，在 AVSBench 基准测试上实验结果表明，AUSS 在单一源和多源训练集上都可以取得最新的最优效果，成功地缩小了音频和视觉模态之间的差距。

May, 2023