分离式新颖物体描述生成器

MMApr, 2018

Decoupled Novel Object Captioner

Yu Wu, Linchao Zhu, Lu Jiang, Yi Yang

TL;DR本文提出了一种零样本学习的图像字幕生成方法，通过将对象描述与语言模型解耦，在一个包含新颖对象的未知领域中生成字幕，其结果表明该方法在零样本新颖对象字幕任务中表现良好。

Abstract

image captioning is a challenging task where the machine automatically describes an image by sentences or phrases. It often requires a large number of paired image-sentence annotations for training. However, a pre-trained captioning model can hardly be applied to a new domain in which

image captioning zero-shot learning novel object captioning sequence model object memory

发现论文，激发创造

使用多样物体标注的图片字幕生成

本文提出了 Novel Object Captioner (NOC) 模型，利用外部数据源和语义嵌入使模型适用于不在现有图像字幕数据集中出现的数百种物体分类，并表现出对现有罕见分类的能力，自动评估和人类判断均表明，该模型在描述物体方面比之前的工作表现更好。

Jun, 2016

深度组合字幕生成：在无配对训练数据的情况下描述新的物体类别

本文提出了一种新的深度神经网络模型 —— 深度组合描述器（DCC），用于描述在未配对图像 - 句子数据集中出现的新概念，可以利用大型对象识别数据集和外部文本语料库，并在语义上相似的概念之间进行知识转移，从而可以描述新的对象及其与其他对象的交互作用。

Nov, 2015

大规模的新物体字幕生成

研究了如何从其他数据源中学习视觉概念，并创建了一个大规模的基准来评估新图像说明模型可以从中获得这些视觉概念的能力。

Dec, 2018

级联修订网络用于新物体字幕生成

本文介绍了一种使用层叠修订网络的图像标题生成方法，在未知物体出现时，利用外部知识（物体检测模型）进行修订，从而精确地描述图像。试验证明该方法在 MSCOCO 数据集和 ImageNet 数据集上效果显著。

Aug, 2019

部分监督图像字幕生成

通过有标签的图片和物体检测数据教授图像字幕模型学习新的视觉概念，通过有限状态自动机表示部分指定的序列数据并提出了一种新颖的算法，可以训练神经网络。在图像字幕任务中，我们取得了基于 COCO 数据集的最新物体字幕任务的最先进结果，并进一步表明，我们可以训练一个字幕模型来描述来自 Open Images 数据集的新的视觉概念，同时保持竞争性的 COCO 评估得分。

Jun, 2018

无监督图像字幕生成

本研究说明无监督学习是可行的图像字幕生成方式，通过利用具有视觉概念检测器的图像集和句子语料库进行训练，生成的字幕能够与图像的语义内容一致且无需图片字幕标注。

Nov, 2018

神经婴儿语

本论文提出了一种新颖的图像字幕生成模型，可在生成自然语言描述的同时，引入与图像实体检测相关的概念填充，通过生成带有显式图像区域链接的句子模板，并利用检测到的可视化概念填充这些区域，实现端到端的可微分框架，并在标准图像字幕生成和新物体字幕生成上达到了当前最先进水平。

Mar, 2018

面向对象的无监督图像描述

本文旨在探索无监督图像标注任务，使用已有的图像和文本之间的重叠关系构建用于训练变形金刚模型的数据集以及研究对象信息和属性之间的关系，以此提高无监督方法的性能表现。

Dec, 2021

基于自然语言的目标描述和检索

本文介绍了一种基于对象描述的联合学习视觉和语言以深入了解对象的方法，并提出了两个新的架构来解决对象字幕和基于自然语言的对象检索单元。研究表明，使用混合的端到端 CNN-LSTM 网络可以有效地解决两个问题，并在推理时间非常快的同时，提供了对对象的详细理解。

Mar, 2018

DeCap：通过纯文本训练对 CLIP 潜变量进行解码，实现零样本描述

该论文提出了一种名为 DeCap 的简单框架来解决零 - shot 图片描述问题，通过引入轻量级的视觉感知语言解码器来满足对数据和计算效率的要求，并提出了一个训练 - free 机制来减少模态间差异。实验证明，DeCap 在典型的图像说明基准测试中表现优异。

Mar, 2023