基于变分堆叠局部注意力网络的多样化视频字幕生成

Jan, 2022

基于变分堆叠局部注意力网络的多样化视频字幕生成

Variational Stacked Local Attention Networks for Diverse Video Captioning

Tonmoay Deb, Akib Sadmanee, Kishor Kumar Bhaumik, Amin Ahsan Ali, M Ashraful Amin...

TL;DR提出了一种基于 VSLAN 的视频字幕生成模型，该模型在编码器 - 解码器体系结构的基础上利用低秩双线性池化进行自我关注特征交互，并采用多特征流叠加的方式实现多样性编码，并实现了端到端的字幕生成，取得了较好的性能。

Abstract

While describing Spatio-temporal events in natural language, video captioning models mostly rely on the encoder's latent visual representation. Recent progress on the encoder-decoder model attends encoder feature

video captioning encoder-decoder model feature interaction diversity encoding vslan

发现论文，激发创造

多面向注意力的视频字幕生成

本文提出了一种新的视频字幕生成方法，利用多种视觉特征和语义属性的层次，采用 LSTM 网络进行句子生成，实现自动选取最突出的视觉特征或语义属性，有望提高字幕生成的精确度。实验结果表明，该框架胜过现有最先进的方法，并可进一步提升精度至近于人类水平。

Dec, 2016

Stack-VS: 堆叠型视觉语义注意力机制用于图像描述生成

提出了一个基于多阶段架构的模型 (Stack-VS)，与底层 (top-down) 和高层 (bottom-up) 注意力模型结合来生成优质图片标题。使用 LSTM 解码器单元在可视层级和语义层级信息上重定义关注权重，并在 MSCOCO 基准测试中取得了显著的提高。

Sep, 2019

用于多样图片字幕中目的建模的连续潜在空间

通过 Seq-CVAE 模型，学习每一个单词位置的潜在空间，并仿照一个将来总结的表示来鼓励这个时间上的潜在空间捕捉如何完成句子的 “意图”，并在 MSCOCO 数据集上表现出了显著的多样性改进指标，同时在句子质量方面达到了同等水平。

Aug, 2019

视频翻译的自适应特征抽象

本研究提出了一种新的方法，使用自适应的注意力机制和多层卷积神经网络特征（即特征抽象）来生成视频的时空表示，通过实验验证了该方法的有效性。

Nov, 2016

视频字幕的判别性潜在语义图

该研究提出了一种联合框架解决视频自动生成字幕中的三个关键问题，包括融合时空信息增强物体建议、动态提取高语义级别的视觉词，以及生成字幕验证确保语义概念的有效保留。实验表明该方法在各种评价指标上都显著优于现有的自然语言生成模型。

Aug, 2021

X-Linear Attention Networks 图像标注

本文为了提高图像描述任务中的交叉多模态推理（Multi-modal Reasoning）表现，提出了一种新颖的 X-Linear 注意力块和注意力网络（X-LAN），利用双线性池化策略和指数线性单元（Exponential Linear Unit，ELU），有效消除了注意机制和交互式双线性建模之间的性能差距，实现了对图像和文本高阶内模态和交叉模态信息的提取。同时，在 Transformer 中加入 X-Linear 注意力块，可以进一步提升模型表现。

Mar, 2020

视频字幕的时空动态与语义属性增强视觉编码

本篇文章提出了一种视觉特征编码技术，使用门控循环单元（GRUs）生成语义丰富的视频字幕，并在 MSVD 和 MSR-VTT 数据集上创造了新的 METEOR 和 ROUGE_L 度量标准的最新技术水平。

Feb, 2019

融合模型用于改进视觉字幕生成

本文提出了一个通用的多模态模型融合框架，以及将预训练的辅助语言模型 (AuxLM) 和掩码语言模型 (MLM) 进行多模态融合，以改进生成的图像描述的质量和纠正其语法和语义错误。在三个基准数据集上的实验结果显示出了明显的改进。

Oct, 2020

LoGAN: 弱监督视频时刻检索的潜在图协同注意力网络

本研究提出了一种新的共现学习框架 (Latent Graph Co-Attention Network)，用于解决标注数据有限的情况下，如何更准确定位与自然语言查询相关的视频片段；通过实验发现，该方法相较以往方法取得了相当显著的进步

Sep, 2019

具有调整时序注意力的分层 LSTM 用于视频字幕生成

通过引入 hierarchical LSTM 和 adjusted temporal attention 的方式，利用 temporal attention 来选择特定的帧来预测相关的单词，并决定是否及如何利用视觉和语言上下文信息，以支持视频字幕生成的多层次模型设计，最终在 MSVD 和 MSR-VTT 数据集上优于现有方法。

Jun, 2017