Jul, 2017

VSE++:使用硬负例改进视觉 - 语义嵌入

TL;DR利用视觉 - 语义嵌入的新技术进行跨模态检索,通过采用 hard negative mining,结构化预测中的 hard negatives 和排名损失函数的结合,对多模态嵌入的常见损失函数进行简单改变,在微调和使用增强数据的情况下获得了显著的检索性能提升。作者在 MS-COCO 和 Flickr30K 数据集中展示了他们的方法 VSE ++,并使用消融研究和与现有方法的比较。在 MS-COCO 的图像和标题检索中,他们的方法在 R@1 上比现有技术方法分别提高了 11.3%和 8.8%。