AVSegFormer: 基于 Transformer 的音视频分割
通过引入多模式变压器架构来深度融合和聚合音频 - 视觉特征,我们提出了一种新颖的音频感知查询增强转换器 (AuTR),用于解决音频 - 视觉分割任务。实验结果表明,我们的方法在多声音和开放场景中具有更好的普适性和性能优势。
Jul, 2023
本文提出了一种用于定位视觉场景中声音对象的 Audio-Visual Segmentation (AVS) 的方法,其中使用了缩放和无注释的管道来生成 AVS 模型的合成数据,还提出了一种 Audio-Aware Transformer (AuTR) 结构,具有音频感知的查询式变压器解码器,以使模型更准确地进行分割。作者在合成和实际数据集上进行了广泛的实验,并取得了很好的效果。
May, 2023
我们提出了一种基于音频查询的 Transformer 架构 (AQFormer),通过在视觉特征中利用预定义的音频查询聚集对象信息,建立了音频和视觉模态之间的明确的对象级语义对应关系,并提出了一种基于音频的时间交互模块来在多帧之间交换与声音对象相关的信息,实验结果证明我们的方法在两个 AVS 基准测试集上取得了最先进的性能,尤其在 MS3 设置上取得了 7.1% 的 M_J 增益和 7.6% 的 M_F 增益。
Sep, 2023
通过建立视觉特征与声音的鲁棒相关性,利用双向生成框架实现音频 - 视觉分割的改进性能,在 AVS 基准测试中取得新的最先进表现水平,并发布源代码与预训练模型。
Aug, 2023
本文提出音频与视觉分割(AVS)问题,并通过构建 AVSBench 基准集进行了研究。通过引入一种新颖的方法 —— 时间上的像素级音视频交互模块,可以指导视觉分割过程,同时设计了正则化损失函数以鼓励音视频映射的训练,比较了几种现有方法,发现该方法有望在音频和像素级视觉语义之间搭建桥梁。
Jul, 2022
本论文提出了一种新的问题 —— 音视频分割(AVS),旨在为可听的视频帧中产生声音的物体输出像素级地图,并构建了第一个 audio-visual segmentation(AVS)基准,即 AVSBench,为声音对象提供像素级注释。通过使用一种基于时间的像素级音视频交互模块注入音频语义指导视觉分割过程并设计一种正则化损失来鼓励训练期间的音视频映射,实验表明我们的方法能够有效地解决这个问题。
Jan, 2023
本文提出了一种 Audio Unmixing and Semantic Segmentation Network (AUSS),通过音频解混和遮罩注意力机制,旨在建立音频流与图像像素之间的细粒度对应关系;为了增强模型的鲁棒性,还引入了自监督模块,在 AVSBench 基准测试上实验结果表明,AUSS 在单一源和多源训练集上都可以取得最新的最优效果,成功地缩小了音频和视觉模态之间的差距。
May, 2023
本文提出了一种基于多模态基础知识的两阶段引导式音频 - 视觉分割框架用于消除分割中的背景噪音或离屏音,通过明确建立音频 - 视觉对应关系和在音频 - 视觉树上追踪校准对象标签的方式,实现了真实音频对象的有效分割。
Aug, 2023
AVFormer 是一种简单的方法,使用轻量级可训练的适配器将视觉嵌入注入到冻结的语音识别模型中,并引入了一种培训方案。同时用小量且弱标注视频数据进行培训。实验结果表明,该方法在三个不同的音视频 ASR 基准(How2、VisSpeech 和 Ego4D)上取得了最先进的零 - shot 结果,同时在传统的仅语音识别基准(LibriSpeech)上表现良好。
Mar, 2023
本研究探讨使用 Transformer-based 视频特征提取器在 Audio Visual Scene-Aware Dialog(AVSD)中解决长期时间视觉依赖和全局视觉信息的问题,并在答案生成方面取得了更高的目标性能评分。
Feb, 2022