Jan, 2024

通过仅文本训练挖掘细粒度的图像-文本对齐用于零样本字幕生成

TL;DR通过减少视觉和文本之间的模态差异,我们提出了一种零摄影机图片字幕框架,通过仅使用文本进行训练和引入局部图像区域特征聚合、噪声注入和CLIP排序策略来提高字幕性能,并证明其在MSCOCO、Flickr30k和VQAV2等数据集上具有显著的性能提升。