Aug, 2022

通过多模态蕴含修订图像 - 文本检索

TL;DR本论文提出了一种多模态蕴含分类器来确定图像的语句,以及开发了一种通用可调节学习速率策略来教授一个检索模型区分这些蕴含的语句和其他负样本。在实验中,我们手动注释了一个蕴含更正的图像文本检索数据集用于评估。结果表明,所提出的蕴含分类器达到了约 78% 的准确度,并持续提高了图像文本检索基线的性能。