音像实例分割

Oct, 2023

Audio-Visual Instance Segmentation

Ruohao Guo, Yaru Chen, Yanyu Qi, Wenzhen Yue, Dantong Niu...

TL;DR提出了一项名为音频 - 视觉实例分割（AVIS）的新的多模态任务，目标是在可听的视频中同时识别、分割和跟踪单个声音对象实例；构建了第一个 AVIS 标准数据集（AVISeg），以便更好地促进这项研究；提出了一个基于声音分支和跨模态融合模块的简单基准模型来定位所有声音对象，并通过在 AVISeg 上使用两种骨干模型进行评估来验证该方法。

Abstract

In this paper, we propose a new multi-modal task, namely audio-visual instance segmentation (avis), in which the goal is to identify, segment, and track individual sounding object instances in audible videos, simultaneously. To our knowledge, it is the first time that instance segmenta

audio-visual instance segmentation avis benchmark multi-modal understanding sounding objects

发现论文，激发创造

音视频分割、声音定位、语义感知声音对象定位

本研究提出了一种音频 - 视觉实例感知分割方法，旨在克服数据集偏差，并通过探索音频 - 视觉语义相关性来实现有效的声音对象分割。

Jul, 2023

带语义的音视频分割

本论文提出了一种新的问题 —— 音视频分割（AVS），旨在为可听的视频帧中产生声音的物体输出像素级地图，并构建了第一个 audio-visual segmentation（AVS）基准，即 AVSBench，为声音对象提供像素级注释。通过使用一种基于时间的像素级音视频交互模块注入音频语义指导视觉分割过程并设计一种正则化损失来鼓励训练期间的音视频映射，实验表明我们的方法能够有效地解决这个问题。

Jan, 2023

音视频分割

本文提出音频与视觉分割（AVS）问题，并通过构建 AVSBench 基准集进行了研究。通过引入一种新颖的方法 —— 时间上的像素级音视频交互模块，可以指导视觉分割过程，同时设计了正则化损失函数以鼓励音视频映射的训练，比较了几种现有方法，发现该方法有望在音频和像素级视觉语义之间搭建桥梁。

Jul, 2022

双向生成改进音频 - 视觉分割

通过建立视觉特征与声音的鲁棒相关性，利用双向生成框架实现音频 - 视觉分割的改进性能，在 AVS 基准测试中取得新的最先进表现水平，并发布源代码与预训练模型。

Aug, 2023

无需注释的音视频分割

本文提出了一种用于定位视觉场景中声音对象的 Audio-Visual Segmentation (AVS) 的方法，其中使用了缩放和无注释的管道来生成 AVS 模型的合成数据，还提出了一种 Audio-Aware Transformer (AuTR) 结构，具有音频感知的查询式变压器解码器，以使模型更准确地进行分割。作者在合成和实际数据集上进行了广泛的实验，并取得了很好的效果。

May, 2023

AV-SAM: 模型将任何物体分割与视听定位相结合

本文提出了基于 SAM 模型的简单而有效的音频 - 视觉定位和分割框架 AV-SAM，可以生成对应于音频的听觉对象掩模，实现像声音定位和分割等视听任务。

May, 2023

BAVS：通过整合基础知识引导音频 - 视觉分割

本文提出了一种基于多模态基础知识的两阶段引导式音频 - 视觉分割框架用于消除分割中的背景噪音或离屏音，通过明确建立音频 - 视觉对应关系和在音频 - 视觉树上追踪校准对象标签的方式，实现了真实音频对象的有效分割。

Aug, 2023

将分割任何模型扩展到音频和时间维度进行音频 - 视觉分割

通过分析视频帧之间的上下文跨模态关系，研究将 Segment Anything Model (SAM) 的能力扩展到音频 - 视觉场景序列，提出了一个融合了空时双向音频 - 视觉注意力 (ST-BAVA) 模块的模型，实现了对音频 - 视觉关联的像素级理解，实验结果表明该模型在音频 - 视觉分割任务中表现优于其他方法，尤其是在具有多个源的数据集上获得了 8.3% 的平均交并比增益。

Jun, 2024

听觉分离：通过解混音指导语义分割

本文提出了一种 Audio Unmixing and Semantic Segmentation Network (AUSS)，通过音频解混和遮罩注意力机制，旨在建立音频流与图像像素之间的细粒度对应关系；为了增强模型的鲁棒性，还引入了自监督模块，在 AVSBench 基准测试上实验结果表明，AUSS 在单一源和多源训练集上都可以取得最新的最优效果，成功地缩小了音频和视觉模态之间的差距。

May, 2023

音视频语义分割进一步探究

本文提出一个新的策略：Visual Post-production (VPO)，旨在构建经济实惠、相对公正的音频 - 视觉语义分割基准数据集，为此引入了像素级音频 - 视觉对比学习方法并验证了该策略的有效性，最终结果表明 VPO 策略构建的数据集能够比 SOTA 模型获得更准确的音频 - 视觉语义分割。

Apr, 2023