受导引的基于开放词汇的图像描述生成与约束束搜索

EMNLPDec, 2016

受导引的基于开放词汇的图像描述生成与约束束搜索

Guided Open Vocabulary Image Captioning with Constrained Beam Search

Peter Anderson, Basura Fernando, Mark Johnson, Stephen Gould

TL;DR使用约束束搜索的方法和固定的预训练词嵌入，使得现有的深度图像描述模型能够利用图像标签器在测试阶段进行标注，从而实现新颖场景或对象的图像生成。该方法的结果表明了它在 MSCOCO 上获得了良好的表现，甚至优于采用相同标签预测的学习算法。同时，我们还证明了我们可以通过利用 ground-truth 标签来显着提高生成的 ImageNet 标题的质量。

Abstract

Existing image captioning models do not generalize well to out-of-domain images containing novel scenes or objects. This limitation severely hinders the use of these models in real world applications dealing with images in the wild. We address this problem using a flexible approach tha

image captioning out-of-domain images captioning architectures beam search vocabulary expansion

发现论文，激发创造

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020

使用知识引导辅助描述包含新型物体的自然图像

提出一种使用知识库指导的、包括多个抽象概念的多实体标签图像识别模型，在描绘描绘未知 / 新物体的图像生成模型中，利用第一步预测的抽象概念作为外部语义关注和约束推理的依据，以处理野外图像中的抽象概念，对 MSCOCO 数据集进行了实验验证，结果显示出了优于以前大部分工作的性能，并可用于知识和视觉的通用集成。

Oct, 2017

跨领域理解引导式图像字幕性能

本文提出了一种使用指导文本来控制图像标题关注点的方法，使用基于 Transformer 的多模态编码器来生成标题，通过使用引导文本和全球和物体级别图像特征生成早期融合表示来生成标题，指导标题模型可较好地泛化用于外部领域的图像和指导文本，提高模型性能的关键因素是增加样式的多样性。

Dec, 2020

基于词性引导的快速、多样化和准确的图像字幕生成

本文提出了一种新的图像描述生成方法，先预测图像的意思概要，再基于该概要生成文本，相比于传统 beam search 的方法，本文方法在文本多样性、计算效率和生成的描述准确性方面都有明显提高。

May, 2018

注意力束：一种图像字幕方法

通过加入启发式的 beam search 策略，我们在基于 encoder-decoder 的架构上取得了比较好的效果，成功地完成了图像描述生成任务。

Nov, 2020

使用字幕的开放词汇物体检测

本文提出了一种称为开放词汇物体检测的新型物体检测问题，利用有限数量的物体分类边界框注释和图像 - 标题对来训练物体检测器，可以在更低的成本下覆盖更广泛的物体范围，成功地解决了物体检测中监督要求高的问题，并且更具实用性和效率，可以检测和定位那些未在训练过程中提供边界框注释的物体，无监督和零样本方法都无法做到如此高的准确性。

Nov, 2020

野外场景下的丰富图像描述

本研究提出了一种图像描述系统，通过在先进的架构上建立深度视觉模型、实体识别模型和信心模型等方式，有效地解决了在野外环境下图像描述的质量、异领域数据处理和低延迟等挑战，并在领域内和领域外的数据集上都显著优于之前的最佳实践结果。

Mar, 2016

部分监督图像字幕生成

通过有标签的图片和物体检测数据教授图像字幕模型学习新的视觉概念，通过有限状态自动机表示部分指定的序列数据并提出了一种新颖的算法，可以训练神经网络。在图像字幕任务中，我们取得了基于 COCO 数据集的最新物体字幕任务的最先进结果，并进一步表明，我们可以训练一个字幕模型来描述来自 Open Images 数据集的新的视觉概念，同时保持竞争性的 COCO 评估得分。

Jun, 2018

从字幕到视觉概念的转换和回归

本文提出了一种用于自动生成图像描述的新方法：使用从图像标题数据集中直接学习的视觉探测器、语言模型和多模式相似模型。

Nov, 2014

2015 MSCOCO 图像标注挑战赛的经验教训

本篇论文介绍一种基于深度递归结构的生成模型，其结合了近期在计算机视觉和机器翻译方面的进展，能够用于生成描述图像的自然语言句子，并经过多种数据集的实验，验证了模型的准确性和语言的流畅性。更重要的是，该模型是通过对图像描述的学习而得，在最近的 COCO 数据集比赛中获得了与 Microsoft Research 团队平分秋色的好成绩，并提供了一个基于 TensorFlow 开源的实现。

Sep, 2016