Feb, 2020

像语言一样表达物体: 用于图像-文本匹配的循环视觉嵌入

TL;DR文章提出了一种针对图像-文本匹配问题的解决方法,利用一种双通路递归神经网络(DP-RNN)处理对称的输入,通过提取对象顺序信息、对象关系、同时引入自注意力和跨模态联合注意力实现了图片和文本的相似度匹配,实验验证提出的方法在Flickr30K数据集上达到了最先进的性能表现,MS-COCO数据集也表现具有竞争力。