STAViS: 时空音视频显著性网络

CVPRJan, 2020

STAViS: Spatio-Temporal AudioVisual Saliency Network

PDF

Antigoni Tsiami, Petros Koutras, Petros Maragos

TL;DR介绍了 STAViS，一种空时音频视觉显著性网络，通过单个网络利用视觉显着性和听觉功能来解决视频中的显著性估计问题，并在多个数据集上性能表现出色，可以用于估算野外环境下的显著性映射。

Abstract

We introduce stavis, a spatio-temporal audiovisual saliency network that combines →

stavis spatio-temporal audiovisual saliency estimation visual saliency models

发现论文，激发创造

CASP-Net: 从音视感官一致性角度重新思考视频显著性预测

本研究提出了一种考虑视听语义交互和一致性感知的一致性感知音视频显著性预测网络（CASP-Net）以及用于改善不一致性的新颖一致性感知预测编码，使用多尺度音视频信息，生成显著性地图。该方法在六个具有挑战性的视听跟踪数据集上性能表现优于其他最先进的方法。

Mar, 2023

学习预测显著面孔：一种新的视听显著性模型

本文通过建立大规模的多人面部视频音频条件下的视线跟踪数据库，研究声音对多人面部视频视觉线索的影响，并提出了一种新的多模式视频显着性模型，包括三种分支：视觉，音频和面部，实验结果表明该方法胜过 11 种现有的显着性预测方法。

Mar, 2021

ViNet: 将视觉模态推至极限，用于音频视觉显著性预测

提出了 ViNet 架构用于音频 - 视觉显著性预测，其采用全卷积编码器 - 解码器架构，利用动作识别网络的视觉特征来编码，通过三线性插值和 3D 卷积生成显著性图，没有使用音频作为输入，但是在 9 个不同的数据集上，仍然优于现有的音频 - 视觉显著性预测模型，而且还超过人类在某些度量标准上的表现，此外，还探索了一个在解码器中将音频特征纳入架构中的变体，得出了一些有趣的结论。

Dec, 2020

ViDaS 视频深度感知显著性网络

本文介绍了一种称为 ViDaS 的全卷积双流深度感知显著性网络，使用 RGB 和深度流作为输入，利用编码器 - 解码器模型获得显著性图来预测人类在 “野外” 环境中的注意力，经过在多个不同数据库中的测试和评估，该方法在大多数情况下优于现有的模型以及我们的仅使用 RGB 的变型，适用于预测普遍的注意力问题，是第一种结合 RGB 和深度特征来解决 “野外” 感兴趣目标估计问题的深度学习视频显著性评估方法，其代码将公开发布。

May, 2023

DAVE: 动态显著性预测的深度音视频嵌入

本文研究音频 - 视觉深度显著性预测，介绍了一种称为 “DAVE” 的动态显著性预测的概念简单而有效的深度音频 - 视觉嵌入，并与我们建立的音频 - 视觉注视数据集 “AVE” 相结合。

May, 2019

音频视觉空间融合与递归注意力的稳健声源定位

提出了一种音频 - 视觉空间整合网络，利用音频和视觉模态的空间线索来模仿人类在检测制造声音的对象时的行为，并引入了递归注意网络来递归地专注于对象，从而形成更准确的注意区域，通过利用音频 - 视觉模态的空间线索和递归地关注对象，我们的方法可以实现更稳健的声源定位，全面的实验结果表明了该方法优于现有方法。

Aug, 2023

STARSS23: 具有声音事件的时空注释的真实场景空间录音的音频 - 视觉数据集

本文提出了一个音频 - 视频声音事件本地化和检测（SELD）任务，它使用多通道音频和视频信息来估计目标声音事件的时间激活和 DOA。音频 - 视觉 SELD 系统可以使用来自麦克风阵列和音频 - 视觉对应的信号来检测和定位声音事件，并介绍了一个音频 - 视觉数据集，其中包含了用于监测人员活动和声音事件发生的多通道音频数据记录。

Jun, 2023

基于显著性引导的图像 - 句子匹配注意力网络

该研究旨在探讨图像和句子之间的匹配问题，提出了一种 Saliency-guided Attention Network 架构，包括视觉注意力和文本注意力模块，能够有效地提高多模态数据表示的准确性，并在 Flickr30K 和 MSCOCO 数据集上取得了大幅度的提升。

Apr, 2019

音视频扫视网络用于高效视频识别

通过利用音频和视觉模态在视频中高效处理时空重要部分，我们提出了一个名为 AVGN 的音视频感知网络，通过划分视频片段并使用轻量级单模态编码器和音频增强的空间块注意模块，实现了更高效的视频识别。同时结合多种训练技术和多模态特征融合，我们的 AVGN 在多个视频识别基准上取得了新的最高性能并实现了更快的处理速度。

Aug, 2023

将分割任何模型扩展到音频和时间维度进行音频 - 视觉分割

通过分析视频帧之间的上下文跨模态关系，研究将 Segment Anything Model (SAM) 的能力扩展到音频 - 视觉场景序列，提出了一个融合了空时双向音频 - 视觉注意力 (ST-BAVA) 模块的模型，实现了对音频 - 视觉关联的像素级理解，实验结果表明该模型在音频 - 视觉分割任务中表现优于其他方法，尤其是在具有多个源的数据集上获得了 8.3% 的平均交并比增益。

Jun, 2024