CVPRMar, 2023

ConZIC: 基于采样平滑的可控零样本图像字幕生成

TL;DR本研究提出了一种名为 ConZIC 的可控零样本图像字幕生成框架,其中核心是一种称为 GibbsBERT 的采样式非自回归语言模型,与 ZeroCap 相比,ConZIC 在保证准确性的情况下,生成速度可达 5 倍以上,多样性指标高出 1.5 倍。