Aug, 2020

使用Transformer编码器进行跨模态检索的细粒度视觉文本对齐

TL;DR通过词区匹配实现图像-句子匹配, 本文提出了一种名为TERAN的新方法,在图像和句子的不同组件之间执行精细匹配,从而实现了跨模式检索,并在MS-COCO和Flickr30k数据集上获得了最先进的结果。