利用外部信息的信息性图像描述

Jun, 2019

Informative Image Captioning with External Sources of Information

Sanqiang Zhao, Piyush Sharma, Tomer Levinboim, Radu Soricut

TL;DR本文提出了使用多模态、多编码器 Transformer 模型将图像信息结合细粒度标签生成信息准确、流畅的图像标注，实现了对实体标签输出的控制，提高了图像描述的准确性和信息丰富程度。

Abstract

An image caption should fluently present the essential information in a given image, including informative, fine-grained entity mentions and the manner in which these entities interact. However, current captioning models are usually trained to generate captions that only contain common object names, thus falling short on an important "informativeness" dimens

image captioning object recognition transformer model fine-grained labels entity labeling

发现论文，激发创造

利用外部百科知识生成图像描述

本文提出了一种使用图像特定的百科全书数据生成上下文化标题的新方法，并通过在编码和解码阶段将其整合到标题生成流程中来使其与图像相关。在新数据集上测试，结果表明该方法能有效地生成准确有关图像的标题。

Oct, 2022

实体感知图像标题生成

提出了一种基于 CNN-LSTM 模型和知识图的算法来解决图像描述中缺少特定信息的问题，该模型通过填充来自于 hashtags 的具体命名实体，使得生成的基于输入图像的模板描述信息更加丰富，实验结果表明该模型在多种评价指标上显著优于单模态基准线。

Apr, 2018

实体感知新闻图像标题生成

该研究提出了一种端到端模型，用于为嵌入新闻文章的图像生成标题。该模型采用多模态，多头注意力机制，结合字节对编码的转换器语言模型来应对命名实体识别、多义词汇等问题，并在 CIDEr 评分上实现了当前最高水平的四倍提升。

Apr, 2020

Good News, Everyone! 基于语境的实体感知新闻图片标题生成

该论文提出了一种新的图像描述方法，利用新闻文章中的上下文信息，动态扩展输出词典，通过可视化线索有选择性地从文章中提取信息，能够生成探究场景的描述，同时发表了最大的新闻图像字幕数据集 “GoodNews”，并展示了最先进的结果。

Apr, 2019

ICECAP: 信息聚合的实体感知图像描述

通过使用新闻文章提供的背景知识，我们提出了一种信息集中的实体感知新闻图片字幕（ICECAP）模型，该模型从句子级别到单词级别逐步集中于相关信息，并在 BreakingNews 和 GoodNews 数据集上进行广泛实验，证明了模型的有效性。

Aug, 2021

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020

为新闻图像字幕选择相关和充分的上下文

本文提出了利用已预训练的视觉和语言检索模型 CLIP 来定位新闻文章中的可视化实体，并通过开放式关系抽取模型捕获非视觉实体，从而显着提高现有模型的性能和实现新的多个基准的最新性能。

Dec, 2022

面向图像标注的检索增强架构

通过利用外部的 kNN 内存来改善生成过程，本研究提出了两个模型变体，这些模型变体结合了基于视觉相似性的知识检索器组件、可微分编码器以及基于上下文线索和从外部存储器中检索的文本来预测标记的 kNN 增强语言模型。在 COCO 和 nocaps 数据集上的实验证实了我们的方法，证明了显式外部存储器的纳入可以显著提高标题的质量，尤其是在更大的检索语料库中。此研究为改善大规模的图像字幕生成打开了新的研究方向。

May, 2024

多模态知识图谱增强实体感知图像描述

该研究提出一种构建多模态知识图谱，将视觉对象和命名实体联系起来并同时捕捉实体之间的关系在内的新方法，以帮助名实体感知图像并生成更具信息量的事件描述。

Jul, 2021

检索增强转换器用于图像字幕生成

本论文中，我们研究了一种基于 kNN 记忆的图像字幕生成方法，其中可以从外部语料库中检索知识来辅助生成过程。通过在视觉相似性、差分编码器和 kNN 增强的注意力层之间结合知识检索器来预测基于上下文和从外部内存检索的文本的令牌。在 COCO 数据集上进行的实验结果表明，采用显式的外部存储器可以帮助生成过程并提高字幕质量。我们的工作为更大规模的图像字幕生成模型的改进开辟了新的途径。

Jul, 2022