Sep, 2020

基于场景文本的细粒度图像分类与检索的多模态推理图

TL;DR本文采用图卷积网络结合场景文本实例和显著图像区域进行多模态推理,在 Con-Text 和 Drink Bottle 数据集中,在细粒度图像分类和图像检索任务中显著优于之前的最新技术。