具有调整时序注意力的分层 LSTM 用于视频字幕生成

Jun, 2017

具有调整时序注意力的分层 LSTM 用于视频字幕生成

Hierarchical LSTM with Adjusted Temporal Attention for Video Captioning

Jingkuan Song, Zhao Guo, Lianli Gao, Wu Liu, Dongxiang Zhang...

TL;DR通过引入 hierarchical LSTM 和 adjusted temporal attention 的方式，利用 temporal attention 来选择特定的帧来预测相关的单词，并决定是否及如何利用视觉和语言上下文信息，以支持视频字幕生成的多层次模型设计，最终在 MSVD 和 MSR-VTT 数据集上优于现有方法。

Abstract

Recent progress has been made in using attention based encoder-decoder framework for video captioning. However, most existing decoders apply the attention mechanism to every generated word including both visual w

video captioning attention mechanism hierarchical lstm temporal attention visual information

发现论文，激发创造

自适应注意力的分层 LSTM 用于视觉字幕生成

通过引入自适应注意力机制以及分层 LSTM（Hierarchical LSTM），提出了一种基于注意力的编码器 - 解码器框架，并在图像和视频描述生成领域通过应用空间或时间注意力机制进行预测。实验表明所提出的框架在图像和视频描述生成任务中均取得了最先进的性能，同时还充分探讨了其各个组成部分的重要贡献。

Dec, 2018

多面向注意力的视频字幕生成

本文提出了一种新的视频字幕生成方法，利用多种视觉特征和语义属性的层次，采用 LSTM 网络进行句子生成，实现自动选取最突出的视觉特征或语义属性，有望提高字幕生成的精确度。实验结果表明，该框架胜过现有最先进的方法，并可进一步提升精度至近于人类水平。

Dec, 2016

针对视频字幕的分层边界感知神经编码器

本论文提出了一种循环视频编码方案，可以发现和利用视频的分层结构，并且改善了电影描述数据集的现有技术结果。

Nov, 2016

视频描述的双向长短期记忆网络

提出一种新型的视频字幕生成框架 Bidirectional Long-Short Term Memory，该框架综合保留了视频的信息，并在常用基准测试上验证了该框架的有效性。

Jun, 2016

基于注意力的多模态融合视频描述

本文提出了一种称为多模态注意力的方法，可以针对图像特征、运动特征和音频特征进行选择性关注，以促进视频描述的多模态信息融合，并在 Youtube2Text 数据集上取得了竞争状态 - of-the-art 的结果。

Jan, 2017

层级深度循环架构用于视频理解

本篇论文介绍了我们在 Youtube-8M 视频理解挑战中开发的系统，采用了规模庞大的基准数据集进行多标签视频分类。我们使用分层深度架构提出了两种注意池化方法并采用了集成学习方法，在公开测试集上达到了 GAP 0.84346 的成绩。

Jul, 2017

文本条件注意力图像字幕生成

提出了一种名为文本条件注意力的新型注意力机制，它允许生成器在给定先前生成的文本的情况下专注于特定的图像特征，通过在一个端到端的网络结构中联合学习图像嵌入，文本嵌入，文本条件注意力和语言模型。在 MS-COCO 数据集上进行了大量实验，实验结果表明，该方法在各种定量指标以及人类评估方面均优于现有的图像字幕方法，这支持了在图像字幕中使用文本条件注意力的应用。

Jun, 2016

视频的记忆增强式注意力模型

本文提出了一种通过建模视频帧和描述概念之间的高阶交互来改善视频描述生成的方法。通过存储先前与之关联的视觉注意力，系统能够决定在已经看过和描述过的内容的基础上看什么并进行描述。这不仅可以实现更有效的局部关注，而且在生成每个单词时可以实现可处理的视频序列的考虑。在具有挑战性和广受欢迎的 MSVD 和 Charades 数据集上的评估表明，所提出的体系结构优于以前的视频描述方法，而无需外部时间视频特征。

Nov, 2016

自适应对齐图像描述生成：自适应关注时间

本研究提出了一种名为 AAT 的新颖注意力模型，它能够自适应地对齐源（图片）和目标（文字描述）以进行图像字幕生成，并验证了 AAT 对于提高图像字幕生成任务的性能表现优于当前先进模型。

Sep, 2019

通过视觉哨兵实现自适应关注的图像字幕

本文提出了一种新的自适应注意力模型，具有视觉哨兵，在每个时间步骤，模型决定是关注图像还是关注视觉哨兵，通过这种方式针对性地提取有意义的信息以生成图像字幕，实验证明我们的方法在 COCO 图像字幕 2015 年挑战数据集和 Flickr30K 上的效果优越并创造了新的最佳表现。

Dec, 2016