使用深度双向 LSTM 进行图像字幕生成
提出一种新型的视频字幕生成框架 Bidirectional Long-Short Term Memory,该框架综合保留了视频的信息,并在常用基准测试上验证了该框架的有效性。
Jun, 2016
该研究致力于解决图像标题生成的问题,提出了一种名为 gLSTM 的扩展型 LSTM 模型,通过将从图像提取的语义信息作为额外输入添加到每个 LSTM 块的单元中,以更紧密地融合图像内容,同时探索了不同的长度标准化策略用于 beam search,以防止偏爱短句子,在 Flickr8K,Flickr30K 和 MS COCO 等基准数据集上取得了与甚至超过当前最先进技术的结果。
Sep, 2015
本文在图像字幕生成方面,提出了一种仅利用卷积神经网络生成字幕的框架,通过并行计算,训练速度比基于 LSTM 的模型快 3 倍,同时在 MSCOCO 图像字幕数据集上获得了比 LSTM 更高的评估得分。
May, 2018
本文探讨利用类人认知风格,即建立对要描述的图像和构建的句子的整体认知来提高计算机图像理解能力。针对现有模型生成句子时没有考虑后续单词对整个句子生成的影响,本文首先提出了一种利用双向 LSTM 的相互援助网络结构(MaBi-LSTMs),以获取整体上下文信息。其次,为了提高跨领域模型生成更高质量的句子,我们进一步开发了跨模态注意机制来修饰两个句子,通过融合其显著部分以及图像的显著区域。在 Microsoft COCO 数据集上的实验结果表明,该模型改善了编码器解码器模型的性能,并取得了最先进的结果。
Oct, 2019
本文展示了使用编码 - 解码模型来实现视频数据到文本字幕的多对多映射的方法,并讨论了数据预处理、模型构建和训练。通过对数据集的不同分割使用 2 元 BLEU 分数来评估字幕的准确性。通过特定的输出示例字幕表明模型在视频时间维度上具有通用性。预测的字幕表明在视频动作方面具有普适性,即使在视频场景发生剧烈变化的情况下。还讨论了改进句子语法和准确性的模型架构变化。
Oct, 2023
本文提出了一种新的多层 RNN 模型 —— 密集连接的双向长短期记忆网络 (DC-Bi-LSTM),并在五个句子分类基准数据集上进行了评估。结果显示,相比同等或更少的参数的传统双向 LSTM,深度为 20 的 DC-Bi-LSTM 模型可以成功训练,并获得了显著的改进。此外,与最先进方法相比,我们的模型表现具有很好的潜力。
Feb, 2018
本文提出了一种基于短期长期记忆(LSTM)和卷积神经网络(CNN)的基于短语层次结构的模型,可用于生成图像描述。该模型以序列化的短语和单词组合而不是通常的序列化单词作为输入,分别学习生成图像相关的名词短语,然后从语料库中的短语和其他单词生成适当的图像描述,并在 Flickr8k 和 Flickr30k 数据集上取得了更好或相当的结果。
Aug, 2016
本文提出了一种卷积图像字幕生成技术,并在 MSCOCO 数据集上展示了其与基准模型相媲美的性能,同时具有更快的训练时间和更少的参数数量。作者还对其模型的优点进行了详细分析,提出了卷积语言生成方法的有力证据。
Nov, 2017
本文提出了一种新的用于图像描述的 LSTM-C(长短时记忆与复制机制结合)模型,它融合了卷积神经网络和递归神经网络,通过复制机制选择合适的单词描述图像中的新物体,实验结果显示这一模型优于目前深度学习领域的其他模型。
Aug, 2017
本文研究使用图像及视频描述辅助盲人及人机交互的应用。通过使用预训练的对象分类器 CNNs 以及 LSTMs,学习生成描述的算法,并在 MPII-MD 数据集上获得了目前最佳性能。
Jun, 2015