MMAug, 2020

使用 Transformer 编码器进行跨模态检索的细粒度视觉文本对齐

TL;DR通过词区匹配实现图像 - 句子匹配,本文提出了一种名为 TERAN 的新方法,在图像和句子的不同组件之间执行精细匹配,从而实现了跨模式检索,并在 MS-COCO 和 Flickr30k 数据集上获得了最先进的结果。