使用多样物体标注的图片字幕生成

CVPRJun, 2016

使用多样物体标注的图片字幕生成

Captioning Images with Diverse Objects

Subhashini Venugopalan, Lisa Anne Hendricks, Marcus Rohrbach, Raymond Mooney, Trevor Darrell...

TL;DR本文提出了 Novel Object Captioner (NOC) 模型，利用外部数据源和语义嵌入使模型适用于不在现有图像字幕数据集中出现的数百种物体分类，并表现出对现有罕见分类的能力，自动评估和人类判断均表明，该模型在描述物体方面比之前的工作表现更好。

Abstract

Recent captioning models are limited in their ability to scale and describe concepts unseen in paired image-text corpora. We propose the Novel Object Captioner (noc), a deep visual semantic captioning model that

captioning models noc deep learning object recognition semantic embeddings

发现论文，激发创造

大规模的新物体字幕生成

研究了如何从其他数据源中学习视觉概念，并创建了一个大规模的基准来评估新图像说明模型可以从中获得这些视觉概念的能力。

Dec, 2018

分离式新颖物体描述生成器

本文提出了一种零样本学习的图像字幕生成方法，通过将对象描述与语言模型解耦，在一个包含新颖对象的未知领域中生成字幕，其结果表明该方法在零样本新颖对象字幕任务中表现良好。

Apr, 2018

深度组合字幕生成：在无配对训练数据的情况下描述新的物体类别

本文提出了一种新的深度神经网络模型 —— 深度组合描述器（DCC），用于描述在未配对图像 - 句子数据集中出现的新概念，可以利用大型对象识别数据集和外部文本语料库，并在语义上相似的概念之间进行知识转移，从而可以描述新的对象及其与其他对象的交互作用。

Nov, 2015

使用知识引导辅助描述包含新型物体的自然图像

提出一种使用知识库指导的、包括多个抽象概念的多实体标签图像识别模型，在描绘描绘未知 / 新物体的图像生成模型中，利用第一步预测的抽象概念作为外部语义关注和约束推理的依据，以处理野外图像中的抽象概念，对 MSCOCO 数据集进行了实验验证，结果显示出了优于以前大部分工作的性能，并可用于知识和视觉的通用集成。

Oct, 2017

使用外部知识检索词汇的新颖目标字幕生成技术 NOC-REK

该研究提出了一种名为 NOC-REK 的端到端的新物体字幕生成方法，通过从来自 Wiktionary 的嵌入中检索任何对象的定义，使用 transformers 模型中学习的图像区域特征来检索字典，从而有效地描述训练数据中缺失的对象。此外，该模型通过更新外部知识库而无需重新训练模型，可以消除模型重新训练的要求。研究表明，该方法在 COCO 和 Nocaps 数据集中的效果显着。

Mar, 2022

部分监督图像字幕生成

通过有标签的图片和物体检测数据教授图像字幕模型学习新的视觉概念，通过有限状态自动机表示部分指定的序列数据并提出了一种新颖的算法，可以训练神经网络。在图像字幕任务中，我们取得了基于 COCO 数据集的最新物体字幕任务的最先进结果，并进一步表明，我们可以训练一个字幕模型来描述来自 Open Images 数据集的新的视觉概念，同时保持竞争性的 COCO 评估得分。

Jun, 2018

RCA-NOC: 相对比对对齐用于新颖物体字幕生成

通过相对对比学习，本研究提出了一种新颖的方法来学习视觉和语义对齐，从而实现新颖物体的描述。针对每个图像，通过利用基于 CLIP 的正负样本的相对性质增加标签，设置适当的对比学习目标，并且将每个增强标签在列表中的排名作为相对相关性标签来对比每个排名靠前的标签和一组排名较低的标签。通过这个学习目标，使得排名靠前的标签与图像和文本上下文的兼容性比排名较低的标签更好，从而提高了学习到的多模态表示的判别能力。在两个数据集上对这种方法进行评估，并且显示了 RCA-NOC 方法在改进新颖物体描述的视觉语言表示方面的显著优势，证明了其有效性。

Dec, 2023

基于自然语言的目标描述和检索

本文介绍了一种基于对象描述的联合学习视觉和语言以深入了解对象的方法，并提出了两个新的架构来解决对象字幕和基于自然语言的对象检索单元。研究表明，使用混合的端到端 CNN-LSTM 网络可以有效地解决两个问题，并在推理时间非常快的同时，提供了对对象的详细理解。

Mar, 2018

使用伪字幕标签进行开放词汇物体检测

该研究提出了一种名为 Pseudo Caption Labeling（PCL）的简单而有效的方法，利用图像字幕模型生成对不同角度目标实例的描述，通过这些大量的数据样本进行知识提炼，以丰富目标的属性和关系等细节，从而提高模型的性能，实验表明该方法可以与任何图像字幕模型一起使用，不需要对模型架构或训练流程进行任何限制。

Mar, 2023

无监督图像字幕生成

本研究说明无监督学习是可行的图像字幕生成方式，通过利用具有视觉概念检测器的图像集和句子语料库进行训练，生成的字幕能够与图像的语义内容一致且无需图片字幕标注。

Nov, 2018