利用人类注视数据监督视频字幕生成神经注意模型

CVPRJul, 2017

利用人类注视数据监督视频字幕生成神经注意模型

Supervising Neural Attention Models for Video Captioning by Human Gaze Data

Youngjae Yu, Jongwook Choi, Yeonhwa Kim, Kyung Yoo, Sang-Hun Lee...

TL;DR本研究探讨是否可以利用人眼注视追踪信息定义注意力机制以提高视频字幕生成任务的性能，通过提出一种名为 GEAN 的视频字幕模型，并采用人眼注视追踪数据来提供生成句子的时空注意力，以及对语言相似性指标和人工智能通过 Amazon mechanical Turk 进行的评估，证明了由人眼追踪数据指导的空间注意力确实改善了多个字幕方法的性能，并展示了该方法在 VAS 数据集和标准数据集（如 LSMDC 和 Hollywood2）中实现了领先的性能，成为最先进的视频字幕生成方法。

Abstract

The attention mechanisms in deep neural networks are inspired by human's attention that sequentially focuses on the most relevant parts of the information over time to generate prediction output. The attention pa

attention mechanisms neural networks human gaze tracking video captioning gean

发现论文，激发创造

与人类视线互动的神经图像字幕生成

通过研究人类注视和深度神经网络注意力机制之间的相互作用，我们提出了一种新的注视辅助图像字幕模型，将人的注视信息集成到基于注意力的 LSTM 结构中，能够将算法选择性地分配到注视和非注视的图像区域，这种方法通过对 COCO / SALICON 数据集的评估，显示了我们方法改善了图像字幕性能，并且注视可以补充机器的注意力，提高了语义场景理解的任务。

Aug, 2016

眼睛与人工智能：视频记忆中的人眼注视与模型关注

通过使用基于 Transformer 的模型结合了时空注意机制，我们研究了影响视频记忆性的语义和时间注意机制，并对一个大型自然主义视频数据集上的视频记忆性预测任务表现进行了比较。结果显示模型的注意力与人类凝视的密度图表现出相似的模式，并且模型和人类对于物体类别的关注度与记忆性得分有关。此外，该模型模仿了人类在时间上的注意力，对于初始帧更加重视。

Nov, 2023

通过人类注视引导的神经注意力提高自然语言处理任务

我们提出了一种新型混合文本显著性模型 (TSM)，首次将阅读的认知模型和显式的人类注视监督相结合，将 TSM 的预测与人类注视的真实数据高度相关，并提出了一种新的联合建模方法，将 TSM 的预测集成到网络的注意层中，从而实现了人类注视引导的神经注意力与 NLP 任务的结合，其在 QUora 问题对语料库的释义生成任务中优于当前技术水平的 PERFOMANCE BY MORE THAN 10% BLEU-4，并在 Google 句子压缩语料库中实现了最先进的性能，从而介绍了一种实用的方法，将数据驱动模型和认知模型之间桥接起来，并展示了将人眼引导的神经关注集成到 NLP 任务中的新方法。

Oct, 2020

CUEING：一项为自动驾驶编码人类凝视的先驱工作

该论文提出了一种自适应的方法来清洗现有的人类凝视数据集，并提出了一个健壮的卷积自我注意凝视预测模型，实验证明我们的清洗方法和模型能够显著提高 ADS 性能和泛化能力。

May, 2023

基于 Transformer 的人类注视行为在视频中的预测模型

基于眼动追踪数据的视频分析自动化是一个重要的任务。本文提出了一种基于转换器增强学习算法的模拟人类视线行为的新方法，通过观看视频并模拟人类注视行为，该方法能有效地复制人类注视行为并应用于实际任务。

Apr, 2024

图像字幕中的人类注意力：数据集和分析

研究通过使用新的包含视觉图像和口头描述的数据集，比较了人类在自由观看和图像描述任务中的注意力差异以及注意力部署机制，并分析了软注意机制与人类注意力之间的相似性。最终表明人类注意力与当前的软注意机制仍存在较大差距，并且将软注意机制与视觉显著性进行集成，可以在 Flickr30k 和 MSCOCO 基准测试中显著提高模型的性能。

Mar, 2019

在视频中检测出被关注的视觉目标

本研究解决了视频中检测注意目标的问题，通过机器学习模型和新的数据集可以有效推断动态的注视点，并在社交注视行为分类任务中取得了最佳表现。

Mar, 2020

探究视觉问答中人类注意力监督

本研究主要针对如何将注意力监督应用于基于 Attention 机制的视觉问答任务中，提出人类注意力网络（HAN）来生成类似于人类的注意力图，并将其应用于 VQA v2.0 数据集中。实验结果表明，该方法能够产生更准确的注意力机制和更好的性能。

Sep, 2017

个性化视频视线估计的时空注意力和高斯过程

使用深度学习模型和专门的注意力模块，通过视频实现准确的注视方向预测，并且通过个性化处理和少量样本获得更高的精度。

Apr, 2024

通过学习任务相关关注转换预测主观视角视频中的凝视

通过探索注意转移中的时间偏移模式（注意转换）来提出一种新的计算模型，它取决于自我操作任务，以在自然动态场景中推测视线，并结合深度神经网络和进阶的注意转移和底层显著性预测，利用视线的时间上下文，能够显著优于其他预测方法。

Mar, 2018