ICLRMar, 2023

DeCap:通过纯文本训练对 CLIP 潜变量进行解码,实现零样本描述

TL;DR该论文提出了一种名为 DeCap 的简单框架来解决零 - shot 图片描述问题,通过引入轻量级的视觉感知语言解码器来满足对数据和计算效率的要求,并提出了一个训练 - free 机制来减少模态间差异。实验证明,DeCap 在典型的图像说明基准测试中表现优异。