CVPRMar, 2024

MeaCap: 存储增强的零样本图像描述

TL;DR提出了一种新颖的记忆增强型零样本图像字幕生成框架(MeaCap),通过装备文本记忆并引入检索 - 过滤模块,使用基于记忆的视觉相关融合评分及关键词 - 句子语言模型,生成与图像高度一致、拥有更少幻觉和更多世界知识的以概念为中心的字幕;该框架在一系列零样本图像字幕设置中取得了最先进的性能。