ICCVJul, 2023

视觉实体的可迁移解码用于零样本图像字幕生成

TL;DR我们提出了 ViECap,一种可转移的解码模型,利用实体感知解码生成见过和没见过的场景中的描述。ViECap 通过实体感知的硬提示将 LLMs 的注意力引导到图像中存在的视觉实体,实现了跨多样场景的连贯字幕生成。在通过实体感知的硬提示的情况下,ViECap 能够在从域内到域外的场景转移中保持性能。大量实验证明了 ViECap 在跨域(可转移)字幕生成方面的最新水平,并与以前基于 VLMs 的零样本方法在域内字幕生成方面有竞争力。