EVCap：用于开放世界理解的外部视觉名称存储的检索增强图像字幕

Nov, 2023

EVCap：用于开放世界理解的外部视觉名称存储的检索增强图像字幕

EVCap: Retrieval-Augmented Image Captioning with External Visual-Name Memory for Open-World Comprehension

Jiaxuan Li, Duc Minh Vo, Akihiro Sugimoto, Hideki Nakayama

TL;DR该研究介绍了一种基于大型语言模型的图像字幕生成方法，利用外部可视 - 名称记忆检索并提供对象名称，从而更新对象知识记忆，实现对未知对象的理解，并在各种基准测试中展现出优越性能。

Abstract

large language models (LLMs)-based image captioning has the capability of describing objects not explicitly observed in training data; yet novel objects occur frequently, necessitating the requirement of sustaini

large language models image captioning object knowledge retrieval-augmented method external visual--name memory

发现论文，激发创造

视觉实体的可迁移解码用于零样本图像字幕生成

我们提出了 ViECap，一种可转移的解码模型，利用实体感知解码生成见过和没见过的场景中的描述。ViECap 通过实体感知的硬提示将 LLMs 的注意力引导到图像中存在的视觉实体，实现了跨多样场景的连贯字幕生成。在通过实体感知的硬提示的情况下，ViECap 能够在从域内到域外的场景转移中保持性能。大量实验证明了 ViECap 在跨域（可转移）字幕生成方面的最新水平，并与以前基于 VLMs 的零样本方法在域内字幕生成方面有竞争力。

Jul, 2023

检索辅助的图像字幕生成

提出了一种使用预训练的视觉和语言编码器的图像字幕生成方法，该方法联合处理图像和从 Datastore 检索到的字幕，实现了检索增强的语言生成，该方法名为 EXTRA。实验结果表明，检索足够数量的字幕可以提高字幕生成的质量。

Feb, 2023

检索增强转换器用于图像字幕生成

本论文中，我们研究了一种基于 kNN 记忆的图像字幕生成方法，其中可以从外部语料库中检索知识来辅助生成过程。通过在视觉相似性、差分编码器和 kNN 增强的注意力层之间结合知识检索器来预测基于上下文和从外部内存检索的文本的令牌。在 COCO 数据集上进行的实验结果表明，采用显式的外部存储器可以帮助生成过程并提高字幕质量。我们的工作为更大规模的图像字幕生成模型的改进开辟了新的途径。

Jul, 2022

面向图像标注的检索增强架构

通过利用外部的 kNN 内存来改善生成过程，本研究提出了两个模型变体，这些模型变体结合了基于视觉相似性的知识检索器组件、可微分编码器以及基于上下文线索和从外部存储器中检索的文本来预测标记的 kNN 增强语言模型。在 COCO 和 nocaps 数据集上的实验证实了我们的方法，证明了显式外部存储器的纳入可以显著提高标题的质量，尤其是在更大的检索语料库中。此研究为改善大规模的图像字幕生成打开了新的研究方向。

May, 2024

基于视觉语言模型的字幕评估方法及其视觉上下文提取

通过提取和组织图像的详细内容，包括物体、属性和关系，我们的方法将人类编写的参考文本替换为视觉上下文，并帮助视觉语言模型更好地理解图像，从而提高图像标题评估性能，并在多个数据集上进行的元评估验证了 VisCE2 在捕捉标题质量方面胜过常规预训练评估指标，并且在与人类判断方面呈现出卓越的一致性。

Feb, 2024

使用外部知识检索词汇的新颖目标字幕生成技术 NOC-REK

该研究提出了一种名为 NOC-REK 的端到端的新物体字幕生成方法，通过从来自 Wiktionary 的嵌入中检索任何对象的定义，使用 transformers 模型中学习的图像区域特征来检索字典，从而有效地描述训练数据中缺失的对象。此外，该模型通过更新外部知识库而无需重新训练模型，可以消除模型重新训练的要求。研究表明，该方法在 COCO 和 Nocaps 数据集中的效果显着。

Mar, 2022

利用大型语言模型将视觉数据融合到丰富的图像标题中的 FuseCap

本文提出了一种用于创建图像标题的方法，通过采用额外的视觉信息，包括对象检测器、识别器等来丰富标题，经大型语言模型融合，生成全面的图像描述。实验证明，该方法有效，所提供的数据集显着提高了图像 - 文本检索。

May, 2023

基于自然语言的目标描述和检索

本文介绍了一种基于对象描述的联合学习视觉和语言以深入了解对象的方法，并提出了两个新的架构来解决对象字幕和基于自然语言的对象检索单元。研究表明，使用混合的端到端 CNN-LSTM 网络可以有效地解决两个问题，并在推理时间非常快的同时，提供了对对象的详细理解。

Mar, 2018

使用合成标题进行超球学习的开放世界检测

通过将视觉语言模型 (VLMs) 的知识传递进行启发式操作，从而丰富开放词汇的图像描述。同时，采用新的超几何视觉语言学习方法对合成字幕产生的噪音进行缓解，实现了视觉与字幕嵌入之间的层次关系。在各种开放世界检测基准测试 (COCO、LVIS、Object Detection in the Wild、RefCOCO) 上进行了广泛实验，结果表明我们的模型在使用相同的主干网络时，始终优于现有的 GLIP、GLIPv2 和 Grounding DINO 等最先进方法。

Apr, 2024

突破通用：利用视觉语言预训练模型增强图像字幕生成的实际知识

利用视觉 - 语言预训练模型（VLP）和知识引导回放（K-Replay）方法，将大规模网络收集的知识融入图像描述中，以提高其准确度和知识识别能力。

Aug, 2023