单次拍摄场景文本检索

ECCVAug, 2018

Single Shot Scene Text Retrieval

Lluís Gómez, Andrés Mafla, Marçal Rusiñol, Dimosthenis Karatzas

TL;DR这篇论文提出了一种使用单镜头卷积神经网络架构的场景文本检索方法，将基于文本的图像检索任务转换为查询文本表示的最近邻搜索，实现了对大规模图像数据库的快速处理，并在实验中表明该方法优于传统的方法。

Abstract

Textual information found in scene images provides high level semantic information about the image and its context and it can be leveraged for better scene understanding. In this paper we address the problem of scene text retrieval: given a text query, the system must return all images containing the queried text. The novelty of the proposed model consists i

scene text retrieval single-shot cnn architecture text representation

发现论文，激发创造

具有区域注意力的单 Shot 文本检测器

本研究提出了一种新颖的单步文字检测器，该检测器直接在自然图像中输出单词级别的边界框。通过自动学习的注意力映射，我们提出了一种注意机制，粗略地识别文本区域。此外，我们还开发了分层 Inception 模块，可以有效地聚合多尺度 Inception 特征，从而使该检测器能够可靠地在单尺度图像上处理多尺度和多方向文本。我们的文本检测器在 ICDAR 2015 基准测试中取得了 77％的 F-measure，超越了先前研究的最新成果。

Sep, 2017

StacMR: 场景文本感知的跨模态检索

本文提出了一个新的数据集，使得可以探索图像包含场景文本实例时的交叉检索。我们提出了几种方法，其中包括更好的场景文本感知交叉检索方法，它使用了来自标题和视觉场景文本的专门表示，并将它们调和在一个公共嵌入空间中。大量实验证实了这些方法从场景文本中受益，并突出了值得进一步探索的有趣研究问题。本文中提出的数据集和代码可在 http URL 中获得。

Dec, 2020

通过联合文本检测和相似性学习实现场景文本检索

本篇论文提出了一种新的场景文本检索方法，使用交叉模态相似性学习直接匹配查询文本和自然图像中每个文本实例之间的相似性，并通过建立端到端可训练的网络来实现场景文本检测和交叉模态相似性学习的联合优化，在三个基准数据集上的实验表明该方法优于现有的场景文本检测 / 检索方法，尤其是联合检测和相似性学习的框架比分离方法性能更好。

Apr, 2021

基于文本注意力的卷积神经网络用于场景文本检测

本文提出了一种基于卷积神经网络的文本 - 卷积神经网络 (Text-CNN) 用于场景文本检测的系统，并通过多层和丰富的监督信息，包括文本区域掩模、字符标签和二分类文本 / 非文本信息来训练 Text-CNN 以提高其判别效能和鲁棒性。最终，该方法在 ICDAR 2013 数据集上取得了很好的效果。

Oct, 2015

基于场景文本的细粒度图像分类与检索的多模态推理图

本文采用图卷积网络结合场景文本实例和显著图像区域进行多模态推理，在 Con-Text 和 Drink Bottle 数据集中，在细粒度图像分类和图像检索任务中显著优于之前的最新技术。

Sep, 2020

端到端可训练的基于图像序列识别的神经网络及其在场景文本识别中的应用

本文提出了一种新颖的神经网络架构，将特征提取、序列建模和转录集成到统一框架中，用于场景文本识别，相比现有算法其具有端到端训练，不需要一定的词典限制，更加适合实际应用等优点，在标准测试数据上展现出更好的性能。

Jul, 2015

融合场景文本与视觉外观进行细粒度图像分类

本文提出了一种利用场景文本进行图像理解的方法，通过符号识别系统获取识别的单词和深层视觉特征的嵌入组合成一个可通过卷积神经网络进行优化的单一表示形式。通过引入注意力机制强化符号与图像之间的关系，不仅有效地提高分类准确率，而且可较大幅度提升产品图像检索性能。

Apr, 2017

基于整体、多通道预测的场景文字检测

该文提出了一种基于全局的语义分割方法来定位场景中的文本，使用单一的 FCN 模型估计文本属性，以同时处理水平，多方向和曲线文本，并在 ICDAR 2013、ICDAR 2015、MSRA-TD500 以及 COCO-Text 数据集上测试得到优于现有最先进方法的结果。

Jun, 2016

超越视觉语义：探索场景文本在图像理解中的作用

本文提出了一种多通道的方法，既利用场景文本和视觉通道提取和编码图像信息，又建模它们之间的相互作用，生成具有更丰富语义的上下文联合嵌入，并在检索和分类任务上展示了其有效性。

May, 2019

基于场景图的图像检索 -- CLEVR 数据集的案例研究

本研究论文提出了基于神经符号方法，利用场景图像来进行文本图像检索的解决方案，并训练了一种可学习的图匹配算法来实现检索任务，并实现了一个基于交互式问答的迭代检索框架。

Nov, 2019