视频的记忆增强式注意力模型

Nov, 2016

Memory-augmented Attention Modelling for Videos

Rasool Fakoor, Abdel-rahman Mohamed, Margaret Mitchell, Sing Bing Kang, Pushmeet Kohli

TL;DR本文提出了一种通过建模视频帧和描述概念之间的高阶交互来改善视频描述生成的方法。通过存储先前与之关联的视觉注意力，系统能够决定在已经看过和描述过的内容的基础上看什么并进行描述。这不仅可以实现更有效的局部关注，而且在生成每个单词时可以实现可处理的视频序列的考虑。在具有挑战性和广受欢迎的 MSVD 和 Charades 数据集上的评估表明，所提出的体系结构优于以前的视频描述方法，而无需外部时间视频特征。

Abstract

We present a method to improve video description generation by modeling higher-order interactions between video frames and described conce

video description generation visual attention higher-order interactions video frames charades datasets

发现论文，激发创造

基于注意力的多模态融合视频描述

本文提出了一种称为多模态注意力的方法，可以针对图像特征、运动特征和音频特征进行选择性关注，以促进视频描述的多模态信息融合，并在 Youtube2Text 数据集上取得了竞争状态 - of-the-art 的结果。

Jan, 2017

多面向注意力的视频字幕生成

本文提出了一种新的视频字幕生成方法，利用多种视觉特征和语义属性的层次，采用 LSTM 网络进行句子生成，实现自动选取最突出的视觉特征或语义属性，有望提高字幕生成的精确度。实验结果表明，该框架胜过现有最先进的方法，并可进一步提升精度至近于人类水平。

Dec, 2016

异构内存增强的多模态注意力模型用于视频问答

本文提出了一种新的端到端可训练的视频问答（VideoQA）框架，包含三个主要组成部分：新的异构内存、重设计的问题内存和新的多模式融合层，其通过自我更新的注意力实现多步推理并关注相关的视觉和文本线索来推断正确答案，实验结果表明该方法在四个 VideoQA 基准数据集上实现了最先进的性能。

Apr, 2019

用于视频字幕的多模态记忆建模

本文提出了一种多模态记忆模型 (M3)，利用视觉和文本共享的记忆来建模长期的视觉 - 文本依赖关系并进一步引导全局的视觉注意力，该方法在公开基准数据集上的实验证明，相比于最先进的方法，本文提出的方法在 BLEU 和 METEOR 方面表现较好。

Nov, 2016

通过属性增强的注意力网络学习进行视频问答

本文研究了如何利用带有特征增强的关注网络学习框架，旨在建立一个能够模拟视频内容的时间动态、实现统一视频表示学习的框架，同时在已构建的大型视频问答数据集上验证其性能，结果表明新模型在选择和开放问题任务上具有有效性。

Jul, 2017

视频语义分割的时间记忆注意力

该研究提出了一种基于自我注意力机制和长远时间关系的 Temporal Memory Attention Network（TMANet），来达到视频语义分割的最佳性能，尤其在 Cityscapes 和 CamVid 数据集上表现出新的最佳性能，并且避免了消耗大量计算资源的精确光流建模的缺点。

Feb, 2021

递归内存寻址描述视频

本文提出了 Key-Value Memory Networks 应用于多模态设置的方法，以及一种新的键寻址机制，将视频字幕生成问题自然地分解为视觉和语言端，将其作为键 - 值对处理，并在寻址模式下提出了一种递归关注的方法来捕捉语境信息，通过实验发现，这种方法可以提高 BLEU@4，METEOR 得分，并实现了与最先进方法竞争性能。

Nov, 2016

基于熵增强的多模态注意力模型用于场景感知对话生成

本研究提出了熵增强动态内存网络 (DMN) 以有效地对视频模态建模，并应用基于注意力的 GRU 来提高模型理解和记忆序列信息的能力，从而生成对于视频问答问题精确的回答。在官方评估中，我们的系统在主观和客观评估指标上均能实现比已发布的基准模型更好的性能。

Aug, 2019

具有调整时序注意力的分层 LSTM 用于视频字幕生成

通过引入 hierarchical LSTM 和 adjusted temporal attention 的方式，利用 temporal attention 来选择特定的帧来预测相关的单词，并决定是否及如何利用视觉和语言上下文信息，以支持视频字幕生成的多层次模型设计，最终在 MSVD 和 MSR-VTT 数据集上优于现有方法。

Jun, 2017

眼睛与人工智能：视频记忆中的人眼注视与模型关注

通过使用基于 Transformer 的模型结合了时空注意机制，我们研究了影响视频记忆性的语义和时间注意机制，并对一个大型自然主义视频数据集上的视频记忆性预测任务表现进行了比较。结果显示模型的注意力与人类凝视的密度图表现出相似的模式，并且模型和人类对于物体类别的关注度与记忆性得分有关。此外，该模型模仿了人类在时间上的注意力，对于初始帧更加重视。

Nov, 2023