全景视频的视听显著性
本文提出了一个大规模的全景视频可视质量评估数据集VQA-OV,其中包括60个参考序列和540个受损序列,并通过挖掘数据集发现全景视频的主观质量确实与人类头部和眼部移动相关,并开发了一个Deep Learning模型,将头部和眼部移动嵌入目标VQA,实验结果表明,我们的模型显著改善了全景视频VQA的最新性能。
Jul, 2018
本文研究音频-视觉深度显著性预测,介绍了一种称为“DAVE”的动态显著性预测的概念简单而有效的深度音频-视觉嵌入,并与我们建立的音频-视觉注视数据集“AVE”相结合。
May, 2019
介绍了STAViS,一种空时音频视觉显著性网络,通过单个网络利用视觉显着性和听觉功能来解决视频中的显著性估计问题,并在多个数据集上性能表现出色,可以用于估算野外环境下的显著性映射。
Jan, 2020
提出了ViNet架构用于音频-视觉显著性预测,其采用全卷积编码器-解码器架构,利用动作识别网络的视觉特征来编码,通过三线性插值和3D卷积生成显著性图,没有使用音频作为输入,但是在9个不同的数据集上,仍然优于现有的音频-视觉显著性预测模型,而且还超过人类在某些度量标准上的表现,此外,还探索了一个在解码器中将音频特征纳入架构中的变体,得出了一些有趣的结论。
Dec, 2020
本文通过建立大规模的多人面部视频音频条件下的视线跟踪数据库,研究声音对多人面部视频视觉线索的影响,并提出了一种新的多模式视频显着性模型,包括三种分支:视觉,音频和面部,实验结果表明该方法胜过11种现有的显着性预测方法。
Mar, 2021
本研究提出了一种考虑视听语义交互和一致性感知的一致性感知音视频显著性预测网络(CASP-Net)以及用于改善不一致性的新颖一致性感知预测编码,使用多尺度音视频信息,生成显著性地图。该方法在六个具有挑战性的视听跟踪数据集上性能表现优于其他最先进的方法。
Mar, 2023
本研究首次建立了一个大规模的音视频品质评估数据集,用于评估全向视频的音视频质量。通过多模态融合策略,设计了三种基准方法来评估全向音视频的品质,并验证了融合方法在全向体验评估中的有效性。
Jul, 2023
通过利用音频和视觉模态在视频中高效处理时空重要部分,我们提出了一个名为AVGN的音视频感知网络,通过划分视频片段并使用轻量级单模态编码器和音频增强的空间块注意模块,实现了更高效的视频识别。同时结合多种训练技术和多模态特征融合,我们的AVGN在多个视频识别基准上取得了新的最高性能并实现了更快的处理速度。
Aug, 2023
本研究探讨了音频与视觉在全景视频(ODVs)中的联合影响,以提高用户在虚拟和增强现实应用中的参与度。通过构建新的音视频显著性数据库AVS-ODV及提出OmniAVS模型,研究表明音频显著影响视觉注意力,并且所提出模型在ODV显著性预测中表现优异,对未来研究具有重要推动作用。
Aug, 2024
本研究聚焦于AIM 2024视频显著性预测挑战赛,解决了预测视频序列准确显著性图的问题。作者介绍了一种全新的大型音视频鼠标显著性(AViMoS)数据集,该数据集包含1500个视频,经过70多名观察者验证,表现出高一致性。最终结果显示参与团队的解决方案在多个质量指标上进行了评估,数据已公开发布,为相关领域提供了重要的研究资源。
Sep, 2024