ACLJun, 2024

理解用于检索增强图像字幕生成的检索鲁棒性

TL;DR近期关于图像字幕检索增强模型的研究进展强调检索相关字幕对于具有强领域转移能力的高效轻量级模型的重要性。本文分析了 SmallCap 检索增强字幕模型的鲁棒性,发现该模型对出现在大多数检索字幕中的标记敏感,并可能将这些标记复制到最终字幕中。基于此发现,我们建议通过从更多多样化的集合中采样检索字幕来训练模型,从而降低模型学习复制大多数标记的概率,并有效地提升领域内外的性能。