SAVE: 音视频分段的简便方法使用分段模型
本文提出音频与视觉分割(AVS)问题,并通过构建 AVSBench 基准集进行了研究。通过引入一种新颖的方法——时间上的像素级音视频交互模块,可以指导视觉分割过程,同时设计了正则化损失函数以鼓励音视频映射的训练,比较了几种现有方法,发现该方法有望在音频和像素级视觉语义之间搭建桥梁。
Jul, 2022
本论文提出了一种新的问题——音视频分割(AVS),旨在为可听的视频帧中产生声音的物体输出像素级地图,并构建了第一个audio-visual segmentation(AVS)基准,即AVSBench,为声音对象提供像素级注释。通过使用一种基于时间的像素级音视频交互模块注入音频语义指导视觉分割过程并设计一种正则化损失来鼓励训练期间的音视频映射,实验表明我们的方法能够有效地解决这个问题。
Jan, 2023
本文提出一个新的策略:Visual Post-production (VPO),旨在构建经济实惠、相对公正的音频-视觉语义分割基准数据集,为此引入了像素级音频-视觉对比学习方法并验证了该策略的有效性,最终结果表明 VPO 策略构建的数据集能够比 SOTA 模型获得更准确的音频-视觉语义分割。
Apr, 2023
本文提出了基于SAM模型的简单而有效的音频-视觉定位和分割框架AV-SAM,可以生成对应于音频的听觉对象掩模,实现像声音定位和分割等视听任务。
May, 2023
本文提出了一种用于定位视觉场景中声音对象的 Audio-Visual Segmentation (AVS) 的方法,其中使用了缩放和无注释的管道来生成 AVS 模型的合成数据,还提出了一种 Audio-Aware Transformer (AuTR) 结构,具有音频感知的查询式变压器解码器,以使模型更准确地进行分割。作者在合成和实际数据集上进行了广泛的实验,并取得了很好的效果。
May, 2023
我们提出了一种基于音频查询的Transformer架构(AQFormer),通过在视觉特征中利用预定义的音频查询聚集对象信息,建立了音频和视觉模态之间的明确的对象级语义对应关系,并提出了一种基于音频的时间交互模块来在多帧之间交换与声音对象相关的信息,实验结果证明我们的方法在两个AVS基准测试集上取得了最先进的性能,尤其在MS3设置上取得了7.1%的M_J增益和7.6%的M_F增益。
Sep, 2023
提出了一种分离的音频-视频变换器,通过结合音频和视频的时间和空间维度的特征,捕捉它们的联合依赖性,并在解码阶段引入音频约束和对象级信息,从而实现与音频方向相符的音频-视觉视频分割,达到了三个数据集上的先进水平。
Sep, 2023
通过分析视频帧之间的上下文跨模态关系,研究将Segment Anything Model (SAM) 的能力扩展到音频-视觉场景序列,提出了一个融合了空时双向音频-视觉注意力(ST-BAVA)模块的模型,实现了对音频-视觉关联的像素级理解,实验结果表明该模型在音频-视觉分割任务中表现优于其他方法,尤其是在具有多个源的数据集上获得了8.3%的平均交并比增益。
Jun, 2024