上下文 - 对象分离潜空间的多样化图像字幕

Nov, 2020

上下文 - 对象分离潜空间的多样化图像字幕

Diverse Image Captioning with Context-Object Split Latent Spaces

Shweta Mahajan, Stefan Roth

TL;DR本文介绍了一种基于上下文以及对象的潜在空间拆分方法，用于在跨域数据集中进行多样化的图像描述生成任务，实现了对图像上下文的多样化描述，同时通过将假的描述信息作为网络的监督信号，扩展了该网络使其可以处理新对象并在没有训练数据的情况下进行图像生成。实验结果表明该方法在 COCO 数据集上准确度和多样性表现良好。

Abstract

Diverse image captioning models aim to learn one-to-many mappings that are innate to cross-domain datasets, such as of images and texts. Current methods for this task are based on generative latent variable models

image captioning latent variable models context-object split coco dataset diversity

发现论文，激发创造

用于多样图片字幕中目的建模的连续潜在空间

通过 Seq-CVAE 模型，学习每一个单词位置的潜在空间，并仿照一个将来总结的表示来鼓励这个时间上的潜在空间捕捉如何完成句子的 “意图”，并在 MSCOCO 数据集上表现出了显著的多样性改进指标，同时在句子质量方面达到了同等水平。

Aug, 2019

使用多样物体标注的图片字幕生成

本文提出了 Novel Object Captioner (NOC) 模型，利用外部数据源和语义嵌入使模型适用于不在现有图像字幕数据集中出现的数百种物体分类，并表现出对现有罕见分类的能力，自动评估和人类判断均表明，该模型在描述物体方面比之前的工作表现更好。

Jun, 2016

学习图像中个体物体的操纵

本文提出一种训练生成模型的方法，通过强制要求上下文信息分离和知觉循环一致性的结合，让潜在变量只会影响到某个物体的局部区域，从而实现对象为中心的操作，而且不需要对象级别的注释。

Apr, 2020

超越预训练目标检测器：图像字幕生成中的跨模态文本和视觉语境

本文提出了一种通过添加辅助输入以表示缺失信息（例如物体关系）来改进视觉描述模型的方法，并使用来自 Visual Genome 数据集的属性和关系对该模型进行调整。在图像标题生成实验中，该方法取得了良好的表现。

May, 2022

密集对齐字幕（DAC）促进视觉语言模型中的组合推理

本文探索了影响视觉语言模型组合推理性能的两个因素：对齐图像 - 文本数据集的质量和文本的密度。通过在 CC3M 数据集上 fine-tuning CLIP 模型，我们证明了自动处理这些影响因素的方法可以使模型的组合推理性能显著提高，基于基线模型的表现增加了约 20％，平均提高 6.7％。

May, 2023

基于大型语言模型的图像背景和描述生成字幕

本论文提出了一种新方法，使用大型语言模型从文本描述和上下文中生成图像字幕，而无需直接处理图像，经调优后，该方法在 CIDEr 指标上优于目前最先进的图像 - 文本对齐模型，解决了使用深度学习模型进行图像字幕生成时遭遇的一些难题。

Jun, 2023

来自上下文无关监督的上下文感知字幕

本文针对图像生成环境下的语境问题，提出了一种关键词区分的图像描述生成方法，该方法不需要针对每个具体图像进行训练，可以在广泛的背景数据上实现对关键特征的描述和生成。根据实验和人类调查结果显示，该方法在区分性描述上优于基准生成型和发话人 - 听众型方法。

Jan, 2017

不要断章取义：统一的视觉语言预训练为上下文辅助的图像字幕生成

本文提出了一个基于 context-aware image captioning 的 unified Vision-Language (VL) model，并利用 pretraining 技术解决了 context-independent 问题，以达到比以前更好的效果。

Jun, 2023

关于图像标注中的多样性：如何像人类一样描述

本文提出了一种新的度量图像标题多样性的指标，并使用隐含语义分析进行核函数转换以利用 CIDEr 相似度进行度量，结果发现最近的标题模型在准确度和多样性方面与人类表现仍存在较大差距，并且优化准确度（CIDEr）的模型的多样性很低，同时表明在强化学习的交叉熵损失和 CIDEr 奖励之间进行平衡可以有效地控制生成的标题的多样性和准确性的平衡。

Mar, 2019

探索多样的上下文配置进行图像字幕生成

本文通过实验研究，对比了四种图像选择和四种图像描述分配策略，在视觉语言领域的图像字幕生成任务中，探索了不同配置对于在情境学习上的影响，揭示了多模态协同作用下视觉语言情境学习的独特特征。

May, 2023