MMMay, 2024

面向图像标注的检索增强架构

TL;DR通过利用外部的 kNN 内存来改善生成过程,本研究提出了两个模型变体,这些模型变体结合了基于视觉相似性的知识检索器组件、可微分编码器以及基于上下文线索和从外部存储器中检索的文本来预测标记的 kNN 增强语言模型。在 COCO 和 nocaps 数据集上的实验证实了我们的方法,证明了显式外部存储器的纳入可以显著提高标题的质量,尤其是在更大的检索语料库中。此研究为改善大规模的图像字幕生成打开了新的研究方向。