视觉实体的可迁移解码用于零样本图像字幕生成

ICCVJul, 2023

视觉实体的可迁移解码用于零样本图像字幕生成

Transferable Decoding with Visual Entities for Zero-Shot Image Captioning

Junjie Fei, Teng Wang, Jinrui Zhang, Zhenyu He, Chengjie Wang...

TL;DR我们提出了 ViECap，一种可转移的解码模型，利用实体感知解码生成见过和没见过的场景中的描述。ViECap 通过实体感知的硬提示将 LLMs 的注意力引导到图像中存在的视觉实体，实现了跨多样场景的连贯字幕生成。在通过实体感知的硬提示的情况下，ViECap 能够在从域内到域外的场景转移中保持性能。大量实验证明了 ViECap 在跨域（可转移）字幕生成方面的最新水平，并与以前基于 VLMs 的零样本方法在域内字幕生成方面有竞争力。

Abstract

image-to-text generation aims to describe images using natural language. Recently, zero-shot image captioning based on pre-trained vision-language models (VLMs) and large language models (LLMs) has made significa

image-to-text generation zero-shot image captioning modality bias entity-aware decoding transferable captioning

发现论文，激发创造

DeCap：通过纯文本训练对 CLIP 潜变量进行解码，实现零样本描述

该论文提出了一种名为 DeCap 的简单框架来解决零 - shot 图片描述问题，通过引入轻量级的视觉感知语言解码器来满足对数据和计算效率的要求，并提出了一个训练 - free 机制来减少模态间差异。实验证明，DeCap 在典型的图像说明基准测试中表现优异。

Mar, 2023

检索辅助的图像字幕生成

提出了一种使用预训练的视觉和语言编码器的图像字幕生成方法，该方法联合处理图像和从 Datastore 检索到的字幕，实现了检索增强的语言生成，该方法名为 EXTRA。实验结果表明，检索足够数量的字幕可以提高字幕生成的质量。

Feb, 2023

EVCap：用于开放世界理解的外部视觉名称存储的检索增强图像字幕

该研究介绍了一种基于大型语言模型的图像字幕生成方法，利用外部可视 - 名称记忆检索并提供对象名称，从而更新对象知识记忆，实现对未知对象的理解，并在各种基准测试中展现出优越性能。

Nov, 2023

突破通用：利用视觉语言预训练模型增强图像字幕生成的实际知识

利用视觉 - 语言预训练模型（VLP）和知识引导回放（K-Replay）方法，将大规模网络收集的知识融入图像描述中，以提高其准确度和知识识别能力。

Aug, 2023

MeaCap: 存储增强的零样本图像描述

提出了一种新颖的记忆增强型零样本图像字幕生成框架（MeaCap），通过装备文本记忆并引入检索 - 过滤模块，使用基于记忆的视觉相关融合评分及关键词 - 句子语言模型，生成与图像高度一致、拥有更少幻觉和更多世界知识的以概念为中心的字幕；该框架在一系列零样本图像字幕设置中取得了最先进的性能。

Mar, 2024

基于视觉语言模型的字幕评估方法及其视觉上下文提取

通过提取和组织图像的详细内容，包括物体、属性和关系，我们的方法将人类编写的参考文本替换为视觉上下文，并帮助视觉语言模型更好地理解图像，从而提高图像标题评估性能，并在多个数据集上进行的元评估验证了 VisCE2 在捕捉标题质量方面胜过常规预训练评估指标，并且在与人类判断方面呈现出卓越的一致性。

Feb, 2024

图像字幕和 VQA 统一视觉语言预训练

本文提出了一个统一的视觉语言预训练模型，采用共享的多层 Transformer 网络进行编码和解码，通过两个任务的无监督学习目标对大量的图像文本对进行预训练，使得该模型在图像字幕和视觉问答等多个任务上均取得了最先进的结果。

Sep, 2019

Synth$^2$: 用合成标题和图像嵌入提升视觉 - 语言模型

我们提出了一种利用大语言模型（LLM）和图像生成模型的优点来创建合成图像 - 文本对的新方法，以用于视觉语言模型（VLM）的高效训练。通过预训练一个文本到图像模型来合成由 LLM 生成的图像嵌入，我们的方法能够用合成数据训练出仅需使用人工标注数据一小部分的 VLM，并在图像字幕任务中展现出相当的性能。此研究为生成大规模、可定制的图像数据集引入了一项有前景的技术，从而提升了 VLM 性能，拓展了其在各个领域中的适用性，并改善了数据效率和资源利用。

Mar, 2024

学习纠正：零样本生成视觉 - 语言推理的高效调节任务

通过 Image-Conditioned Caption Correction（ICCC）指导的二次调整，提高图像与语言之间的零 - shot 推理性能。

Apr, 2024

检索增强型零样本视频字幕生成

该论文提出了一种利用现有的大规模视觉和语言模型进行测试时间适应性直接生成字幕的方法，通过使用多个关键模型来桥接视频和文本，并使用可学习的令牌来传递信息。在实验中，该方法在多个数据集上取得了与现有最先进方法相比的 4％至 20％的 CIDEr 主要评价指标的改进。

May, 2024