用于时空视觉注意的循环混合密度网络

ICLRMar, 2016

用于时空视觉注意的循环混合密度网络

Recurrent Mixture Density Network for Spatiotemporal Visual Attention

Loris Bazzani, Hugo Larochelle, Lorenzo Torresani

TL;DR本研究提出了一种基于高斯混合模型的时空注意力模型，并使用人类注视数据进行训练，相比先前的方法，该模型在影片显著性预测方面具有最先进的表现，并在动作分类准确性方面取得了改进。

Abstract

In many computer vision tasks, the relevant information to solve the problem at hand is mixed to irrelevant, distracting information. This has motivated researchers to design attentional models that can dynamical

computer vision attentional models saliency prediction spatiotemporal attentional model deep 3d convolutional features

发现论文，激发创造

深度视觉注意力预测

通过深度学习网络结构，我们的视觉注意力网络从全局到本地不同范围内的多尺度特征中提取等级显著信息以预测人眼的视觉注视点，并在各种基准数据集上实现了最先进的性能表现。

May, 2017

可解释的时空注意力视频动作识别

通过引入可解释的时空注意力机制来提高视频动作识别的准确性和模型解释性，并使用一组正则化器对其进行约束。利用弱监督的方式仅使用分类标签，模型不仅提高了准确性，还能时空自动定位区分性区域。

Oct, 2018

基于多样性正则化的时空关注力视频人物再识别

提出了一种新的时空注意力模型，可以自动发现多样化的特征，并使用空间和时间的注意力组合提取有用的信息，从整个视频序列中学习潜在的面部、躯干和其他身体部位的隐藏表示，通过三个数据集的评估发现算法优于现有方法。

Mar, 2018

SG-FCN: 一种基于运动和记忆的视频显著性检测深度学习模型

通过模拟人类观看视频时的记忆机制和视觉注意机制，我们提出了一种新颖高效的视频眼球凝视检测模型，通过在时间轴上组合记忆信息和在空间轴上的运动信息，存储当前帧的显著性信息来改善显著性检测性能，并通过分层训练获得模型，实验结果表明我们提出的模型在多个公开数据集上优于现有的 11 个最先进的方法。

Sep, 2018

动态显著性预测的时空显著性网络

本研究提出了基于深度学习的时空注意力预测模型，其中采用两条流网络架构，探究了不同的信息融合机制。实验结果表明，采用运动信息可以有助于静态注意力估计，并取得了与最先进模型相竞争的结果。

Jul, 2016

使用卷积神经网络预测视觉搜索过程中的视觉关注和干扰

本文提出了两种方法来模拟观察者在视觉搜索过程中的视觉注意力和干扰，第一种方法使用轻量级的自由视图显著性模型来预测人眼在搜索图像像素上的注视密度地图，第二种方法基于目标对象预测干扰器和目标。

Oct, 2022

基于全卷积网络的视频显著对象检测

本文提出了一个深度学习模型，通过数据增强技术和动态显著性模型来高效地检测视频中的显著区域，该模型在 DAVIS 和 FBMS 数据集上达到了最新的性能标准。

Feb, 2017

一种基于 LSTM 的显著性关注模型用于预测人眼注视点

提出了一种基于卷积 LSTM 的新型模型，结合神经注意机制，可预测准确的显著图，并学习一组使用高斯函数生成的先验图，这种模型在公共显著性预测数据集上表现优于现有技术，可以克服人眼注视典型的中心偏差，并且对于不同的情境展现了关键组件各自的贡献。

Nov, 2016

重访视频显著性：一个大规模基准和一个新模型

该研究提出了一种基于注意力机制增强的 CNN-LSTM 网络架构，可用于动态视频场景下显著性学习，在 DHF1K 数据集上取得了优于其他竞争者的性能表现。

Jan, 2018

多模态连续视觉注意机制

本文介绍一种新的连续注意力机制，它生成具有高斯混合形式的多模态密度，用于图像区域的聚合。该方法在视觉问题回答中表现出有竞争力的准确性和自动分离复杂场景中物体和地面的能力，并提供比其他方法更可解释的注意力地图。

Apr, 2021