引导长短期记忆在图像字幕生成中的应用

ICCVSep, 2015

引导长短期记忆在图像字幕生成中的应用

Guiding Long-Short Term Memory for Image Caption Generation

Xu Jia, Efstratios Gavves, Basura Fernando, Tinne Tuytelaars

TL;DR该研究致力于解决图像标题生成的问题，提出了一种名为 gLSTM 的扩展型 LSTM 模型，通过将从图像提取的语义信息作为额外输入添加到每个 LSTM 块的单元中，以更紧密地融合图像内容，同时探索了不同的长度标准化策略用于 beam search，以防止偏爱短句子，在 Flickr8K，Flickr30K 和 MS COCO 等基准数据集上取得了与甚至超过当前最先进技术的结果。

Abstract

In this work we focus on the problem of image caption generation. We propose an extension of the long short term memory (LSTM) model, which we coin gLSTM for short. In particular, we add →

image caption generation long short term memory semantic information beam search benchmark datasets

发现论文，激发创造

使用深度双向 LSTM 进行图像字幕生成

本研究提出了一种端到端可训练的深度双向 LSTM 模型，用于图像字幕生成，增加了数据增强技术，并在三个基准数据集上进行了评估，证明其性能竞争力强。

Apr, 2016

视频描述的双向长短期记忆网络

提出一种新型的视频字幕生成框架 Bidirectional Long-Short Term Memory，该框架综合保留了视频的信息，并在常用基准测试上验证了该框架的有效性。

Jun, 2016

实体感知图像标题生成

提出了一种基于 CNN-LSTM 模型和知识图的算法来解决图像描述中缺少特定信息的问题，该模型通过填充来自于 hashtags 的具体命名实体，使得生成的基于输入图像的模板描述信息更加丰富，实验结果表明该模型在多种评价指标上显著优于单模态基准线。

Apr, 2018

电影描述的长短故事

本文研究使用图像及视频描述辅助盲人及人机交互的应用。通过使用预训练的对象分类器 CNNs 以及 LSTMs，学习生成描述的算法，并在 MPII-MD 数据集上获得了目前最佳性能。

Jun, 2015

phi-LSTM：一种面向短语的分层 LSTM 图像字幕生成模型

本文提出了一种基于短期长期记忆（LSTM）和卷积神经网络（CNN）的基于短语层次结构的模型，可用于生成图像描述。该模型以序列化的短语和单词组合而不是通常的序列化单词作为输入，分别学习生成图像相关的名词短语，然后从语料库中的短语和其他单词生成适当的图像描述，并在 Flickr8k 和 Flickr30k 数据集上取得了更好或相当的结果。

Aug, 2016

卷积图像描述

本文提出了一种卷积图像字幕生成技术，并在 MSCOCO 数据集上展示了其与基准模型相媲美的性能，同时具有更快的训练时间和更少的参数数量。作者还对其模型的优点进行了详细分析，提出了卷积语言生成方法的有力证据。

Nov, 2017

图像生成中引入复制机制，学习新物体

本文提出了一种新的用于图像描述的 LSTM-C（长短时记忆与复制机制结合）模型，它融合了卷积神经网络和递归神经网络，通过复制机制选择合适的单词描述图像中的新物体，实验结果显示这一模型优于目前深度学习领域的其他模型。

Aug, 2017

人类认知风格下使用整体上下文信息进行图像标题生成的探索

本文探讨利用类人认知风格，即建立对要描述的图像和构建的句子的整体认知来提高计算机图像理解能力。针对现有模型生成句子时没有考虑后续单词对整个句子生成的影响，本文首先提出了一种利用双向 LSTM 的相互援助网络结构（MaBi-LSTMs），以获取整体上下文信息。其次，为了提高跨领域模型生成更高质量的句子，我们进一步开发了跨模态注意机制来修饰两个句子，通过融合其显著部分以及图像的显著区域。在 Microsoft COCO 数据集上的实验结果表明，该模型改善了编码器解码器模型的性能，并取得了最先进的结果。

Oct, 2019

基于编码器 - 解码器的长短期记忆（LSTM）视频字幕模型

本文展示了使用编码 - 解码模型来实现视频数据到文本字幕的多对多映射的方法，并讨论了数据预处理、模型构建和训练。通过对数据集的不同分割使用 2 元 BLEU 分数来评估字幕的准确性。通过特定的输出示例字幕表明模型在视频时间维度上具有通用性。预测的字幕表明在视频动作方面具有普适性，即使在视频场景发生剧烈变化的情况下。还讨论了改进句子语法和准确性的模型架构变化。

Oct, 2023

基于图 LSTM 的语义对象分析

本文提出了一种新的基于图结构的 LSTM 网络 (Graph LSTM)，将任意形状的超像素作为拓扑结构的节点来自适应构建图拓扑结构，提供更加自然的信息传递路径，并使用自信度驱动的策略逐渐更新节点的隐藏状态和记忆状态。在四个数据集上进行综合评估表明，Graph LSTM 相对于其他最先进的解决方案具有显著的优越性。

Mar, 2016