图像字幕生成中的新颖物体指示

CVPRApr, 2019

Pointing Novel Objects in Image Captioning

Yehao Li, Ting Yao, Yingwei Pan, Hongyang Chao, Tao Mei

TL;DR提出了一种新的深度图片描述模型 Long Short-Term Memory with Pointing (LSTM-P)，结合对象学习方法和指向机制实现了词汇的扩充和全局物体涵盖。在 COCO 数据集和 ImageNet 数据集上的实验结果显示其优于现有方法，最终在 COCO 数据集上获得了平均 F1 分数为 60.9% 的表现

Abstract

image captioning has received significant attention with remarkable improvements in recent advances. Nevertheless, images in the wild encapsulate rich knowledge and cannot be sufficiently described with models built on image-caption pairs containing only in-domain objects. In this pape

image captioning object learners lstm-p vocabulary expansion pointing mechanism

发现论文，激发创造

图像生成中引入复制机制，学习新物体

本文提出了一种新的用于图像描述的 LSTM-C（长短时记忆与复制机制结合）模型，它融合了卷积神经网络和递归神经网络，通过复制机制选择合适的单词描述图像中的新物体，实验结果显示这一模型优于目前深度学习领域的其他模型。

Aug, 2017

探究图像关系以用于图像描述

本文介绍了一种利用图卷积网络和长短期记忆（GCN-LSTM）结构，将语义和空间对象关系集成到图像编码器中，以生成图像标题的新方法，并在 COCO 图像字幕数据集上开展了广泛的实验，并取得了比现有方法更好的结果。

Sep, 2018

基于自然语言的目标描述和检索

本文介绍了一种基于对象描述的联合学习视觉和语言以深入了解对象的方法，并提出了两个新的架构来解决对象字幕和基于自然语言的对象检索单元。研究表明，使用混合的端到端 CNN-LSTM 网络可以有效地解决两个问题，并在推理时间非常快的同时，提供了对对象的详细理解。

Mar, 2018

引导长短期记忆在图像字幕生成中的应用

该研究致力于解决图像标题生成的问题，提出了一种名为 gLSTM 的扩展型 LSTM 模型，通过将从图像提取的语义信息作为额外输入添加到每个 LSTM 块的单元中，以更紧密地融合图像内容，同时探索了不同的长度标准化策略用于 beam search，以防止偏爱短句子，在 Flickr8K，Flickr30K 和 MS COCO 等基准数据集上取得了与甚至超过当前最先进技术的结果。

Sep, 2015

电影描述的长短故事

本文研究使用图像及视频描述辅助盲人及人机交互的应用。通过使用预训练的对象分类器 CNNs 以及 LSTMs，学习生成描述的算法，并在 MPII-MD 数据集上获得了目前最佳性能。

Jun, 2015

使用深度双向 LSTM 进行图像字幕生成

本研究提出了一种端到端可训练的深度双向 LSTM 模型，用于图像字幕生成，增加了数据增强技术，并在三个基准数据集上进行了评估，证明其性能竞争力强。

Apr, 2016

使用伪字幕标签进行开放词汇物体检测

该研究提出了一种名为 Pseudo Caption Labeling（PCL）的简单而有效的方法，利用图像字幕模型生成对不同角度目标实例的描述，通过这些大量的数据样本进行知识提炼，以丰富目标的属性和关系等细节，从而提高模型的性能，实验表明该方法可以与任何图像字幕模型一起使用，不需要对模型架构或训练流程进行任何限制。

Mar, 2023

提升图像描述的能力通过属性

本文提出了 LSTM-A 架构，将属性集成到 CNNs 和 RNNs 的图片字幕框架中，并通过端到端的方式对它们进行训练。在 COCO 图片字幕数据集上进行了大量实验，该框架相比业内先进的深层模型获得了更好的结果，其中 METEOR/CIDEr-D 在 Karpathy＆Fei-Fei（2015）的公开数据集上达到了 25.2％/ 98.6％，并在 COCO 字幕排行榜上获得了至今的最佳表现。

Nov, 2016

部分监督图像字幕生成

通过有标签的图片和物体检测数据教授图像字幕模型学习新的视觉概念，通过有限状态自动机表示部分指定的序列数据并提出了一种新颖的算法，可以训练神经网络。在图像字幕任务中，我们取得了基于 COCO 数据集的最新物体字幕任务的最先进结果，并进一步表明，我们可以训练一个字幕模型来描述来自 Open Images 数据集的新的视觉概念，同时保持竞争性的 COCO 评估得分。

Jun, 2018

EVCap：用于开放世界理解的外部视觉名称存储的检索增强图像字幕

该研究介绍了一种基于大型语言模型的图像字幕生成方法，利用外部可视 - 名称记忆检索并提供对象名称，从而更新对象知识记忆，实现对未知对象的理解，并在各种基准测试中展现出优越性能。

Nov, 2023