CVPRMar, 2022

基于场景文本的知识挖掘用于细粒度识别

TL;DR提出了一种可进行场景文字图像语义挖掘、增强细粒度图像分类表示的端到端可训练网络,其通过三种模态:视觉特征提取、文本语义提取和相关背景知识相结合,利用 KnowBert 检索相关知识来进行语义表示,并在 Con-Text 和 Drink Bottle 数据集上实验,证明了该方法的有效性,MAP 分别比现有文献最高提升了 3.72% 和 5.39%。