Dec, 2020

StacMR: 场景文本感知的跨模态检索

TL;DR本文提出了一个新的数据集,使得可以探索图像包含场景文本实例时的交叉检索。我们提出了几种方法,其中包括更好的场景文本感知交叉检索方法,它使用了来自标题和视觉场景文本的专门表示,并将它们调和在一个公共嵌入空间中。大量实验证实了这些方法从场景文本中受益,并突出了值得进一步探索的有趣研究问题。本文中提出的数据集和代码可在 http URL 中获得。