学习预测显著面孔:一种新的视听显著性模型
本文研究音频 - 视觉深度显著性预测,介绍了一种称为 “DAVE” 的动态显著性预测的概念简单而有效的深度音频 - 视觉嵌入,并与我们建立的音频 - 视觉注视数据集 “AVE” 相结合。
May, 2019
本研究提出了一种考虑视听语义交互和一致性感知的一致性感知音视频显著性预测网络(CASP-Net)以及用于改善不一致性的新颖一致性感知预测编码,使用多尺度音视频信息,生成显著性地图。该方法在六个具有挑战性的视听跟踪数据集上性能表现优于其他最先进的方法。
Mar, 2023
提出了 ViNet 架构用于音频 - 视觉显著性预测,其采用全卷积编码器 - 解码器架构,利用动作识别网络的视觉特征来编码,通过三线性插值和 3D 卷积生成显著性图,没有使用音频作为输入,但是在 9 个不同的数据集上,仍然优于现有的音频 - 视觉显著性预测模型,而且还超过人类在某些度量标准上的表现,此外,还探索了一个在解码器中将音频特征纳入架构中的变体,得出了一些有趣的结论。
Dec, 2020
通过使用新的深度学习技术,本文旨在检测自然视频中的显著区域。首先预测视频帧中的显著补丁,然后基于它们构建预测的视觉注视地图。我们展示了通过更改优化网络参数的数据选择方式,可以将计算成本节约多达 12 倍。将 RGB 值的深度学习方法扩展到具有特定性的视频以利用人类视觉系统对残留运动的敏感性。在两个公开可用数据集上进行实验,并展示了较高的准确度和 AUC 度量。
Apr, 2016
通过提取视觉显著性信息,利用基于加权融合的视频摘要方法改进人脸防伪识别模型的性能和效率,以面向数据的方式提供一种有效的训练集,通过 CNN-RNN 架构在五个具有挑战性的人脸防伪数据集上取得了最先进的表现。
Aug, 2023
用多模态方法,包括语音和图像信号,提出了一个基于神经网络的在线人员验证系统。该网络通过学习多感官关联来达到验证任务的目的,并利用了关注机制来选择具有显著性的模态,以提供补充的输入。在 VoxCeleb2 数据集上,该方法表现出比其他多模态和单模态方法更好的鲁棒性和可靠性。
Nov, 2018
本研究提出了一种基于扩散架构的音视频显著性预测方法(DiffSal),使用音频和视频作为条件,通过 Saliency-UNet 网络进行渐进细化来解决显著性图的生成问题,并在六个具有挑战性的音视频基准任务中取得了优秀的性能。
Mar, 2024
使用音频线索,本文在对话场景中提出了一种基于多模式的凝视追踪框架,利用音频与嘴唇之间的关联来增强场景图像并估计凝视候选者,采用多层感知机将主题与候选者进行匹配作为分类任务,通过引入图像和音频的对话数据集进行评估,表明我们的方法在凝视追踪任务中具有显著优势,并促进了多模式凝视追踪估计的更多研究。
Nov, 2023
本文提出了一个深度学习模型,通过数据增强技术和动态显著性模型来高效地检测视频中的显著区域,该模型在 DAVIS 和 FBMS 数据集上达到了最新的性能标准。
Feb, 2017