全景视频的视听显著性

Nov, 2023

Audio-visual Saliency for Omnidirectional Videos

Yuxin Zhu, Xilei Zhu, Huiyu Duan, Jie Li, Kaiwei Zhang...

TL;DR建立了最大的音频-视觉全景视频显著性数据集（AVS-ODV），分析了观察者在不同音频模式和视觉场景下的视觉注意行为，并构建了一个新的基准模型和数据集以促进未来的研究。

Abstract

Visual saliency prediction for omnidirectional videos (ODVs) has shown great significance and necessity for omnidirectional videos to help ODV coding, ODV transmission, ODV rendering, etc.. However, most studies

发现论文，激发创造

连接全向视频VQA和人类行为：一个大规模数据集和深度学习模型

本文提出了一个大规模的全景视频可视质量评估数据集VQA-OV，其中包括60个参考序列和540个受损序列，并通过挖掘数据集发现全景视频的主观质量确实与人类头部和眼部移动相关，并开发了一个Deep Learning模型，将头部和眼部移动嵌入目标VQA，实验结果表明，我们的模型显著改善了全景视频VQA的最新性能。

Jul, 2018

DAVE: 动态显著性预测的深度音视频嵌入

本文研究音频-视觉深度显著性预测，介绍了一种称为“DAVE”的动态显著性预测的概念简单而有效的深度音频-视觉嵌入，并与我们建立的音频-视觉注视数据集“AVE”相结合。

May, 2019

STAViS: 时空音视频显著性网络

介绍了STAViS，一种空时音频视觉显著性网络，通过单个网络利用视觉显着性和听觉功能来解决视频中的显著性估计问题，并在多个数据集上性能表现出色，可以用于估算野外环境下的显著性映射。

Jan, 2020

ViNet: 将视觉模态推至极限，用于音频视觉显著性预测

提出了ViNet架构用于音频-视觉显著性预测，其采用全卷积编码器-解码器架构，利用动作识别网络的视觉特征来编码，通过三线性插值和3D卷积生成显著性图，没有使用音频作为输入，但是在9个不同的数据集上，仍然优于现有的音频-视觉显著性预测模型，而且还超过人类在某些度量标准上的表现，此外，还探索了一个在解码器中将音频特征纳入架构中的变体，得出了一些有趣的结论。

Dec, 2020

学习预测显著面孔：一种新的视听显著性模型

本文通过建立大规模的多人面部视频音频条件下的视线跟踪数据库，研究声音对多人面部视频视觉线索的影响，并提出了一种新的多模式视频显着性模型，包括三种分支：视觉，音频和面部，实验结果表明该方法胜过11种现有的显着性预测方法。

Mar, 2021

CASP-Net: 从音视感官一致性角度重新思考视频显著性预测

本研究提出了一种考虑视听语义交互和一致性感知的一致性感知音视频显著性预测网络（CASP-Net）以及用于改善不一致性的新颖一致性感知预测编码，使用多尺度音视频信息，生成显著性地图。该方法在六个具有挑战性的视听跟踪数据集上性能表现优于其他最先进的方法。

Mar, 2023

全向音视频信号的感知质量评估

本研究首次建立了一个大规模的音视频品质评估数据集，用于评估全向视频的音视频质量。通过多模态融合策略，设计了三种基准方法来评估全向音视频的品质，并验证了融合方法在全向体验评估中的有效性。

Jul, 2023

音视频扫视网络用于高效视频识别

通过利用音频和视觉模态在视频中高效处理时空重要部分，我们提出了一个名为AVGN的音视频感知网络，通过划分视频片段并使用轻量级单模态编码器和音频增强的空间块注意模块，实现了更高效的视频识别。同时结合多种训练技术和多模态特征融合，我们的AVGN在多个视频识别基准上取得了新的最高性能并实现了更快的处理速度。

Aug, 2023

音频如何影响全景视频中的视觉注意

本研究探讨了音频与视觉在全景视频（ODVs）中的联合影响，以提高用户在虚拟和增强现实应用中的参与度。通过构建新的音视频显著性数据库AVS-ODV及提出OmniAVS模型，研究表明音频显著影响视觉注意力，并且所提出模型在ODV显著性预测中表现优异，对未来研究具有重要推动作用。

Aug, 2024

AIM 2024视频显著性预测挑战赛：方法与结果

本研究聚焦于AIM 2024视频显著性预测挑战赛，解决了预测视频序列准确显著性图的问题。作者介绍了一种全新的大型音视频鼠标显著性（AViMoS）数据集，该数据集包含1500个视频，经过70多名观察者验证，表现出高一致性。最终结果显示参与团队的解决方案在多个质量指标上进行了评估，数据已公开发布，为相关领域提供了重要的研究资源。

Sep, 2024