基于场景文本的知识挖掘用于细粒度识别

CVPRMar, 2022

基于场景文本的知识挖掘用于细粒度识别

Knowledge Mining with Scene Text for Fine-Grained Recognition

Hao Wang, Junchao Liao, Tianheng Cheng, Zewen Gao, Hao Liu...

TL;DR提出了一种可进行场景文字图像语义挖掘、增强细粒度图像分类表示的端到端可训练网络，其通过三种模态：视觉特征提取、文本语义提取和相关背景知识相结合，利用 KnowBert 检索相关知识来进行语义表示，并在 Con-Text 和 Drink Bottle 数据集上实验，证明了该方法的有效性，MAP 分别比现有文献最高提升了 3.72% 和 5.39%。

Abstract

Recently, the semantics of scene text has been proven to be essential in fine-grained image classification. However, the existing methods mainly exploit the literal meaning of →

scene text fine-grained image classification end-to-end trainable network knowledge mining semantic representation

发现论文，激发创造

融合场景文本与视觉外观进行细粒度图像分类

本文提出了一种利用场景文本进行图像理解的方法，通过符号识别系统获取识别的单词和深层视觉特征的嵌入组合成一个可通过卷积神经网络进行优化的单一表示形式。通过引入注意力机制强化符号与图像之间的关系，不仅有效地提高分类准确率，而且可较大幅度提升产品图像检索性能。

Apr, 2017

基于场景文本的细粒度图像分类与检索的多模态推理图

本文采用图卷积网络结合场景文本实例和显著图像区域进行多模态推理，在 Con-Text 和 Drink Bottle 数据集中，在细粒度图像分类和图像检索任务中显著优于之前的最新技术。

Sep, 2020

超越视觉语义：探索场景文本在图像理解中的作用

本文提出了一种多通道的方法，既利用场景文本和视觉通道提取和编码图像信息，又建模它们之间的相互作用，生成具有更丰富语义的上下文联合嵌入，并在检索和分类任务上展示了其有效性。

May, 2019

基于场景图的图像 - 文本检索融合网络

本研究提出了一种基于场景图融合网络的图像 - 文本检索方法，通过内部和交叉模态融合来增强图像 / 文本特征，并采用层次化的融合注意力来将语义信息嵌入到图像 / 文本特征向量之中，进而进行图像 - 文本的检索任务。实验结果表明，本方法相比其他现有技术，在公开数据集 Flickr30K 和 MSCOCO 上取得了更好的效果。

Mar, 2023

StacMR: 场景文本感知的跨模态检索

本文提出了一个新的数据集，使得可以探索图像包含场景文本实例时的交叉检索。我们提出了几种方法，其中包括更好的场景文本感知交叉检索方法，它使用了来自标题和视觉场景文本的专门表示，并将它们调和在一个公共嵌入空间中。大量实验证实了这些方法从场景文本中受益，并突出了值得进一步探索的有趣研究问题。本文中提出的数据集和代码可在 http URL 中获得。

Dec, 2020

语义感知场景识别

该论文提出了一种基于多模式 CNN 的场景识别新方法，结合图像和上下文信息，通过注意力机制来强化学习和增强场景的辨别能力，实验证明该方法性能超过所有现有的先进方法，并显著减少了网络参数。

Sep, 2019

基于语义推理网络的准确场景文本识别

提出了一个新的基于语义推理网络的端到端的可训练框架，用于场景文本识别，其中引入了全局语义推理模块来通过多向并行传输捕获全局语义内容，具有比基于循环神经网络方法更快的速度。该方法在包括正常文本、不规则文本和非拉丁长文本在内的 7 个公共基准上取得了最先进的结果，验证了其有效性和鲁棒性。

Mar, 2020

图像 - 文本匹配的视觉语义推理

我们提出了一种简单而易于解释的推理模型，用于生成全局场景的主要对象和语义概念的可视化表示，该模型使用图卷积网络进行关联和推理，再使用门和记忆机制进行全局语义推理，选取判别信息并逐渐生成整个场景的表示；实验证明我们的方法在 MS-COCO 和 Flickr30K 数据集上取得了相对于最佳方法分别为 6.8％和 4.8％的图像检索和字幕检索的新的最佳效果，Flickr30K 数据集上分别提高了 12.6％和 5.8％的图像检索和字幕检索。

Sep, 2019

语义聚类用于鲁棒细节场景识别

本文提出一种新颖的领域泛化方法，用于解决细粒度场景识别中的问题，并验证了该方法的有效性。

Jul, 2016

场景文本视觉问答

本文介绍了一个新数据集，即 ST-VQA，旨在强调利用图像中文本信息的重要性。我们使用这个数据集定义了一系列难度不断增加的任务，需要利用图像中提供的上下文阅读场景文本以进行推理和生成适当的答案。我们提出了一个新的评估指标来考虑推理错误以及文本识别模块的缺陷，同时提出一系列基线方法。

May, 2019