AV-SAM: 模型将任何物体分割与视听定位相结合

May, 2023

AV-SAM: 模型将任何物体分割与视听定位相结合

AV-SAM: Segment Anything Model Meets Audio-Visual Localization and Segmentation

Shentong Mo, Yapeng Tian

TL;DR本文提出了基于 SAM 模型的简单而有效的音频 - 视觉定位和分割框架 AV-SAM，可以生成对应于音频的听觉对象掩模，实现像声音定位和分割等视听任务。

Abstract

segment anything model (SAM) has recently shown its powerful effectiveness in visual segmentation tasks. However, there is less exploration concerning how SAM works on audio-visual tasks, such as visual sound localization and segmentation. In this work, we propose a simple yet effectiv

segment anything model audio-visual localization sounding object masks cross-modal representations audio-visual segmentation masks

发现论文，激发创造

将分割任何模型扩展到音频和时间维度进行音频 - 视觉分割

通过分析视频帧之间的上下文跨模态关系，研究将 Segment Anything Model (SAM) 的能力扩展到音频 - 视觉场景序列，提出了一个融合了空时双向音频 - 视觉注意力 (ST-BAVA) 模块的模型，实现了对音频 - 视觉关联的像素级理解，实验结果表明该模型在音频 - 视觉分割任务中表现优于其他方法，尤其是在具有多个源的数据集上获得了 8.3% 的平均交并比增益。

Jun, 2024

SAVE: 音视频分段的简便方法使用分段模型

通过提出的 SAVE 模型，将预训练的 SAM 模型有效地适应 AVS 任务，通过在变压器块中引入图像编码器适配器和残差音频编码器适配器，实现有效的音频 - 视觉融合和交互，加速训练和推理速度，同时在输入图像分辨率从 1024 像素减少到 256 像素的情况下获得更高的性能。验证实验表明，该方法明显优于其他方法。

Jul, 2024

音像实例分割

提出了一项名为音频 - 视觉实例分割（AVIS）的新的多模态任务，目标是在可听的视频中同时识别、分割和跟踪单个声音对象实例；构建了第一个 AVIS 标准数据集（AVISeg），以便更好地促进这项研究；提出了一个基于声音分支和跨模态融合模块的简单基准模型来定位所有声音对象，并通过在 AVISeg 上使用两种骨干模型进行评估来验证该方法。

Oct, 2023

音视频分割、声音定位、语义感知声音对象定位

本研究提出了一种音频 - 视觉实例感知分割方法，旨在克服数据集偏差，并通过探索音频 - 视觉语义相关性来实现有效的声音对象分割。

Jul, 2023

双向生成改进音频 - 视觉分割

通过建立视觉特征与声音的鲁棒相关性，利用双向生成框架实现音频 - 视觉分割的改进性能，在 AVS 基准测试中取得新的最先进表现水平，并发布源代码与预训练模型。

Aug, 2023

带语义的音视频分割

本论文提出了一种新的问题 —— 音视频分割（AVS），旨在为可听的视频帧中产生声音的物体输出像素级地图，并构建了第一个 audio-visual segmentation（AVS）基准，即 AVSBench，为声音对象提供像素级注释。通过使用一种基于时间的像素级音视频交互模块注入音频语义指导视觉分割过程并设计一种正则化损失来鼓励训练期间的音视频映射，实验表明我们的方法能够有效地解决这个问题。

Jan, 2023

音视频分割

本文提出音频与视觉分割（AVS）问题，并通过构建 AVSBench 基准集进行了研究。通过引入一种新颖的方法 —— 时间上的像素级音视频交互模块，可以指导视觉分割过程，同时设计了正则化损失函数以鼓励音视频映射的训练，比较了几种现有方法，发现该方法有望在音频和像素级视觉语义之间搭建桥梁。

Jul, 2022

声音提示分割是可推广的音频 - 视觉源定位器

通过引入编码 - 提示 - 解码范式，本研究关注零样本和少样本情景下的视听定位和分割任务，并通过构建语义感知的音频提示和相关适配器，实现了在数据稀缺和数据分布差异方面的优越性能。

Sep, 2023

无需注释的音视频分割

本文提出了一种用于定位视觉场景中声音对象的 Audio-Visual Segmentation (AVS) 的方法，其中使用了缩放和无注释的管道来生成 AVS 模型的合成数据，还提出了一种 Audio-Aware Transformer (AuTR) 结构，具有音频感知的查询式变压器解码器，以使模型更准确地进行分割。作者在合成和实际数据集上进行了广泛的实验，并取得了很好的效果。

May, 2023

音视频语义分割进一步探究

本文提出一个新的策略：Visual Post-production (VPO)，旨在构建经济实惠、相对公正的音频 - 视觉语义分割基准数据集，为此引入了像素级音频 - 视觉对比学习方法并验证了该策略的有效性，最终结果表明 VPO 策略构建的数据集能够比 SOTA 模型获得更准确的音频 - 视觉语义分割。

Apr, 2023