学习预测显著面孔：一种新的视听显著性模型

ECCVMar, 2021

学习预测显著面孔：一种新的视听显著性模型

Learning to Predict Salient Faces: A Novel Visual-Audio Saliency Model

Yufan Liu, Minglang Qiao, Mai Xu, Bing Li, Weiming Hu...

TL;DR本文通过建立大规模的多人面部视频音频条件下的视线跟踪数据库，研究声音对多人面部视频视觉线索的影响，并提出了一种新的多模式视频显着性模型，包括三种分支：视觉，音频和面部，实验结果表明该方法胜过 11 种现有的显着性预测方法。

Abstract

Recently, video streams have occupied a large proportion of Internet traffic, most of which contain human faces. Hence, it is necessary to predict saliency on multiple-face videos, which can provide attention cues for many content based applications. However, most of multiple-face

video streams saliency prediction multi-modal attention eye-tracking database audio influence

发现论文，激发创造

DAVE: 动态显著性预测的深度音视频嵌入

本文研究音频 - 视觉深度显著性预测，介绍了一种称为 “DAVE” 的动态显著性预测的概念简单而有效的深度音频 - 视觉嵌入，并与我们建立的音频 - 视觉注视数据集 “AVE” 相结合。

May, 2019

CASP-Net: 从音视感官一致性角度重新思考视频显著性预测

本研究提出了一种考虑视听语义交互和一致性感知的一致性感知音视频显著性预测网络（CASP-Net）以及用于改善不一致性的新颖一致性感知预测编码，使用多尺度音视频信息，生成显著性地图。该方法在六个具有挑战性的视听跟踪数据集上性能表现优于其他最先进的方法。

Mar, 2023

ViNet: 将视觉模态推至极限，用于音频视觉显著性预测

提出了 ViNet 架构用于音频 - 视觉显著性预测，其采用全卷积编码器 - 解码器架构，利用动作识别网络的视觉特征来编码，通过三线性插值和 3D 卷积生成显著性图，没有使用音频作为输入，但是在 9 个不同的数据集上，仍然优于现有的音频 - 视觉显著性预测模型，而且还超过人类在某些度量标准上的表现，此外，还探索了一个在解码器中将音频特征纳入架构中的变体，得出了一些有趣的结论。

Dec, 2020

自然视频显著性预测的深度学习

通过使用新的深度学习技术，本文旨在检测自然视频中的显著区域。首先预测视频帧中的显著补丁，然后基于它们构建预测的视觉注视地图。我们展示了通过更改优化网络参数的数据选择方式，可以将计算成本节约多达 12 倍。将 RGB 值的深度学习方法扩展到具有特定性的视频以利用人类视觉系统对残留运动的敏感性。在两个公开可用数据集上进行实验，并展示了较高的准确度和 AUC 度量。

Apr, 2016

基于显著性的人脸反欺诈视频摘要

通过提取视觉显著性信息，利用基于加权融合的视频摘要方法改进人脸防伪识别模型的性能和效率，以面向数据的方式提供一种有效的训练集，通过 CNN-RNN 架构在五个具有挑战性的人脸防伪数据集上取得了最先进的表现。

Aug, 2023

基于注意力神经网络融合的噪声容忍音视频人员在线验证

用多模态方法，包括语音和图像信号，提出了一个基于神经网络的在线人员验证系统。该网络通过学习多感官关联来达到验证任务的目的，并利用了关注机制来选择具有显著性的模态，以提供补充的输入。在 VoxCeleb2 数据集上，该方法表现出比其他多模态和单模态方法更好的鲁棒性和可靠性。

Nov, 2018

DiffSal: 扩散显著性预测的音频和视频联合学习

本研究提出了一种基于扩散架构的音视频显著性预测方法（DiffSal），使用音频和视频作为条件，通过 Saliency-UNet 网络进行渐进细化来解决显著性图的生成问题，并在六个具有挑战性的音视频基准任务中取得了优秀的性能。

Mar, 2024

会话情景中的多模态注视跟踪

使用音频线索，本文在对话场景中提出了一种基于多模式的凝视追踪框架，利用音频与嘴唇之间的关联来增强场景图像并估计凝视候选者，采用多层感知机将主题与候选者进行匹配作为分类任务，通过引入图像和音频的对话数据集进行评估，表明我们的方法在凝视追踪任务中具有显著优势，并促进了多模式凝视追踪估计的更多研究。

Nov, 2023

基于递归融合的联合交叉注意力的音视频人员验证

通过递归融合的联合交叉关注模型和 BLSTMs，本研究有效地捕捉音频和视觉模态之间的内在和跨模态关系，显著提高了融合性能。

Mar, 2024

基于全卷积网络的视频显著对象检测

本文提出了一个深度学习模型，通过数据增强技术和动态显著性模型来高效地检测视频中的显著区域，该模型在 DAVIS 和 FBMS 数据集上达到了最新的性能标准。

Feb, 2017