Jul, 2022

检索增强转换器用于图像字幕生成

TL;DR本论文中,我们研究了一种基于 kNN 记忆的图像字幕生成方法,其中可以从外部语料库中检索知识来辅助生成过程。通过在视觉相似性、差分编码器和 kNN 增强的注意力层之间结合知识检索器来预测基于上下文和从外部内存检索的文本的令牌。在 COCO 数据集上进行的实验结果表明,采用显式的外部存储器可以帮助生成过程并提高字幕质量。我们的工作为更大规模的图像字幕生成模型的改进开辟了新的途径。