ICLRJun, 2022

基于 Transformer 的维基百科图像标题匹配多模态提议与重新排序

TL;DR本文介绍了我们为参加 Kaggle 上的 Wikipedia 图像 - 字幕匹配挑战而设计的系统,该系统使用与图像相关的数据(URL 和视觉数据)来在一个庞大的字幕库中找到正确的字幕。我们提出了两个基于 Transformer 模型的级联模型,能有效地推断查询图像数据与字幕之间的相关度,并通过广泛的实验验证了其在处理大量的图像和字幕时的效果,同时完成一定的验证时间复杂度。在 Kaggle 的私人排名中,我们的方法的标准化折扣累积增益值(nDCG)达到了 0.53。