AAAIJan, 2024

通过仅文本训练挖掘细粒度的图像 - 文本对齐用于零样本字幕生成

TL;DR通过减少视觉和文本之间的模态差异,我们提出了一种零摄影机图片字幕框架,通过仅使用文本进行训练和引入局部图像区域特征聚合、噪声注入和 CLIP 排序策略来提高字幕性能,并证明其在 MSCOCO、Flickr30k 和 VQAV2 等数据集上具有显著的性能提升。