SAVE: 音视频分段的简便方法使用分段模型

Jul, 2024

SAVE: 音视频分段的简便方法使用分段模型

SAVE: Segment Audio-Visual Easy way using Segment Anything Model

Khanh-Binh Nguyen, Chae Jung Park

TL;DR通过提出的SAVE模型，将预训练的SAM模型有效地适应AVS任务，通过在变压器块中引入图像编码器适配器和残差音频编码器适配器，实现有效的音频- 视觉融合和交互，加速训练和推理速度，同时在输入图像分辨率从1024像素减少到256像素的情况下获得更高的性能。验证实验表明，该方法明显优于其他方法。

Abstract

The primary aim of audio-visual segmentation (AVS) is to precisely identify and locate auditory elements within visual scenes by accurately predicting segmentation masks at the pixel level. Achieving this involve

发现论文，激发创造

音视频分割

本文提出音频与视觉分割（AVS）问题，并通过构建 AVSBench 基准集进行了研究。通过引入一种新颖的方法——时间上的像素级音视频交互模块，可以指导视觉分割过程，同时设计了正则化损失函数以鼓励音视频映射的训练，比较了几种现有方法，发现该方法有望在音频和像素级视觉语义之间搭建桥梁。

Jul, 2022

带语义的音视频分割

本论文提出了一种新的问题——音视频分割（AVS），旨在为可听的视频帧中产生声音的物体输出像素级地图，并构建了第一个audio-visual segmentation（AVS）基准，即AVSBench，为声音对象提供像素级注释。通过使用一种基于时间的像素级音视频交互模块注入音频语义指导视觉分割过程并设计一种正则化损失来鼓励训练期间的音视频映射，实验表明我们的方法能够有效地解决这个问题。

Jan, 2023

音视频语义分割进一步探究

本文提出一个新的策略：Visual Post-production (VPO)，旨在构建经济实惠、相对公正的音频-视觉语义分割基准数据集，为此引入了像素级音频-视觉对比学习方法并验证了该策略的有效性，最终结果表明 VPO 策略构建的数据集能够比 SOTA 模型获得更准确的音频-视觉语义分割。

Apr, 2023

AV-SAM: 模型将任何物体分割与视听定位相结合

本文提出了基于SAM模型的简单而有效的音频-视觉定位和分割框架AV-SAM，可以生成对应于音频的听觉对象掩模，实现像声音定位和分割等视听任务。

May, 2023

无需注释的音视频分割

本文提出了一种用于定位视觉场景中声音对象的 Audio-Visual Segmentation (AVS) 的方法，其中使用了缩放和无注释的管道来生成 AVS 模型的合成数据，还提出了一种 Audio-Aware Transformer (AuTR) 结构，具有音频感知的查询式变压器解码器，以使模型更准确地进行分割。作者在合成和实际数据集上进行了广泛的实验，并取得了很好的效果。

May, 2023

音视频分割、声音定位、语义感知声音对象定位

本研究提出了一种音频-视觉实例感知分割方法，旨在克服数据集偏差，并通过探索音频-视觉语义相关性来实现有效的声音对象分割。

Jul, 2023

双向生成改进音频-视觉分割

通过建立视觉特征与声音的鲁棒相关性，利用双向生成框架实现音频-视觉分割的改进性能，在AVS基准测试中取得新的最先进表现水平，并发布源代码与预训练模型。

Aug, 2023

通过音频查询来发现声音对象用于音频视觉分割

我们提出了一种基于音频查询的Transformer架构(AQFormer)，通过在视觉特征中利用预定义的音频查询聚集对象信息，建立了音频和视觉模态之间的明确的对象级语义对应关系，并提出了一种基于音频的时间交互模块来在多帧之间交换与声音对象相关的信息，实验结果证明我们的方法在两个AVS基准测试集上取得了最先进的性能，尤其在MS3设置上取得了7.1%的M_J增益和7.6%的M_F增益。

Sep, 2023

CATR：组合依赖音频查询变压器用于音频视觉视频分割

提出了一种分离的音频-视频变换器，通过结合音频和视频的时间和空间维度的特征，捕捉它们的联合依赖性，并在解码阶段引入音频约束和对象级信息，从而实现与音频方向相符的音频-视觉视频分割，达到了三个数据集上的先进水平。

Sep, 2023

将分割任何模型扩展到音频和时间维度进行音频-视觉分割

通过分析视频帧之间的上下文跨模态关系，研究将Segment Anything Model (SAM) 的能力扩展到音频-视觉场景序列，提出了一个融合了空时双向音频-视觉注意力(ST-BAVA)模块的模型，实现了对音频-视觉关联的像素级理解，实验结果表明该模型在音频-视觉分割任务中表现优于其他方法，尤其是在具有多个源的数据集上获得了8.3%的平均交并比增益。

Jun, 2024