重新思考图像描述中的潜在状态形式

ECCVJul, 2018

重新思考图像描述中的潜在状态形式

Rethinking the Form of Latent States in Image Captioning

Bo Dai, Deming Ye, Dahua Lin

TL;DR研究了使用二维地图来编码潜在状态的图像字幕模型，发现使用 2D 状态通常在字幕生成方面更加有效，且能够保留空间局部性，并通过这种方式揭示了字幕生成过程中的内部动态和输入视觉领域与输出语言领域之间的联系。

Abstract

rnns and their variants have been widely adopted for image captioning. In rnns, the production of a caption is driven by a sequence of

rnns image captioning latent states 2d states spatial structures

发现论文，激发创造

CNN+CNN：用于图像字幕生成的卷积解码器

本文在图像字幕生成方面，提出了一种仅利用卷积神经网络生成字幕的框架，通过并行计算，训练速度比基于 LSTM 的模型快 3 倍，同时在 MSCOCO 图像字幕数据集上获得了比 LSTM 更高的评估得分。

May, 2018

使用深度双向 LSTM 进行图像字幕生成

本研究提出了一种端到端可训练的深度双向 LSTM 模型，用于图像字幕生成，增加了数据增强技术，并在三个基准数据集上进行了评估，证明其性能竞争力强。

Apr, 2016

图像字幕注意力区域

提出了基于注意力机制的图像描述模型，该模型使用三种成对的交互来建立图像区域、描述文本和 RNN 语言模型之间的依赖关系，并运用空间变换器来生成最佳的区域关注机制，达到了 MSCOCO 数据集上的最佳结果。

Dec, 2016

卷积图像描述

本文提出了一种卷积图像字幕生成技术，并在 MSCOCO 数据集上展示了其与基准模型相媲美的性能，同时具有更快的训练时间和更少的参数数量。作者还对其模型的优点进行了详细分析，提出了卷积语言生成方法的有力证据。

Nov, 2017

理解语境化表示的潜在拓扑感知

通过使用结构化的变分自编码器进行完全无监督的学习，得出语境化嵌入的表征空间存在潜在状态的网络，这些状态不仅作为表示流形的拓扑结构的锚点，还揭示了对句子进行编码的内部机制。同时，表明句子作为潜在网络上的遍历，状态转换链编码了句法模板，状态 - 词发射填充了内容。

Jun, 2022

从确定性到生成性：用多模态随机循环神经网络实现视频字幕生成

本文提出了一种基于多模态随机递归神经网络（MS-RNN）的生成式视频字幕方法，利用基于拉丁超立方采样（LHS）的随机采样方法解决给定视频的不确定性问题，支持不同的句子生成，实验结果显示该方法优于现有技术，并提高了视频字幕的性能。

Aug, 2017

使用重新聚焦的视频编码器进行视频字幕

本文提出了一种新的递归视频编码方法和新的视觉空间特征，以改进视频字幕生成任务的效果，实验结果表明，该方法能显著提高视频字幕生成质量。

Jul, 2019

用于多样图片字幕中目的建模的连续潜在空间

通过 Seq-CVAE 模型，学习每一个单词位置的潜在空间，并仿照一个将来总结的表示来鼓励这个时间上的潜在空间捕捉如何完成句子的 “意图”，并在 MSCOCO 数据集上表现出了显著的多样性改进指标，同时在句子质量方面达到了同等水平。

Aug, 2019

人类认知风格下使用整体上下文信息进行图像标题生成的探索

本文探讨利用类人认知风格，即建立对要描述的图像和构建的句子的整体认知来提高计算机图像理解能力。针对现有模型生成句子时没有考虑后续单词对整个句子生成的影响，本文首先提出了一种利用双向 LSTM 的相互援助网络结构（MaBi-LSTMs），以获取整体上下文信息。其次，为了提高跨领域模型生成更高质量的句子，我们进一步开发了跨模态注意机制来修饰两个句子，通过融合其显著部分以及图像的显著区域。在 Microsoft COCO 数据集上的实验结果表明，该模型改善了编码器解码器模型的性能，并取得了最先进的结果。

Oct, 2019

利用空间 LSTMs 生成图像模型

本文中介绍了一种基于多维 LSTM 的递归图像模型，该模型可以捕获长距离像素之间的统计依赖，适用于纹理合成和补全等多项任务，并在多个图像数据集上的定量比较中表现优异。

Jun, 2015