基于预训练语言模型的精确无侦测场景文本定位

Mar, 2024

基于预训练语言模型的精确无侦测场景文本定位

TextBlockV2: Towards Precise-Detection-Free Scene Text Spotting with Pre-trained Language Model

Jiahao Lyu, Jin Wei, Gangyan Zeng, Zeng Li, Enze Xie...

TL;DR本研究提出了一种场景文本检测器，利用预训练语言模型来增强性能，通过简单的文本块检测器获得粗略的定位信息，并通过大规模 OCR 数据集微调语言模型以实现准确识别，实验证明本场景文本检测器在多个公开基准上表现优越，同时展示了预训练语言模型在整个场景图像中直接检测文本的潜力。

Abstract

Existing scene text spotters are designed to locate and transcribe texts from images. However, it is challenging for a spotter to achieve precise detection and recognition of scene texts simultaneously. Inspired by the glimpse-focus spotting pipeline of human beings and impressive performances of Pre-trained Language Models (PLMs) on visual tasks, we ask: 1)

scene text spotter pre-trained language models text block detection ocr dataset performance

发现论文，激发创造

基于 LLMs 的块级文本检测

通过利用大型语言模型的强大语义知识，提出了一种新颖方法 BTS-LLM（基于 LLM 的区块级文本识别），以在图像中识别区块级别的文本，从而增强后续应用中的上下文信息和文本纠错功能。

Jun, 2024

SwinTextSpotter: 基于更好的文本检测与识别协同的场景文本定位

本文提出了一种使用 transformer encoding 的新型端到端场景文本识别框架，并通过一种新的识别转换机制，在不需要额外的矫正模块或字符级别注释的情况下显式地引导文本定位，从而使该方法在多种数据集上显著优于现有方法。

Mar, 2022

Language Matters: 一种弱监督的视觉 - 语言预训练方法用于场景文字检测和定位

本文提出了一种弱监督的预训练方法 oCLIP，该方法通过联合学习视觉和文本信息来获取有效的场景文本表示，并能从弱注释文本中学习，可以有效地应对 OCR 任务。实验证明，该方法在多个公共数据集上都优于现有的预训练技术。

Mar, 2022

提高场景文本检测器的视觉语言预训练

本文研究了视觉 - 语言联合表征学习在场景文本检测中的应用，提出了利用视觉 - 语言预训练学习得到的上下文化联合表征来提高场景文本检测器的性能，通过三个 pretext tasks 来进行预训练，在标准基准测试中证明了该方法能够显著提高各种代表性的文本检测器的性能。

Apr, 2022

用双筒望远镜发现 LLMs：机器生成文本的零样本检测

利用两个紧密相关的预训练大型语言模型之间的对比得分，我们提出了一种新颖的仅需要使用这对 LLM 进行简单计算的 LLM 检测器，名为 Binoculars，它在不需要任何训练数据的情况下实现了最先进的准确性，能够在各种现代 LLM 的文本中发现机器生成的文本。在多种文档类型并且各个情况下，我们全面评估了 Binoculars 的性能，它以 0.01% 的误报率能够检测到 ChatGPT（和其他 LLM）生成的样本中超过 90% 的文本，尽管它没有接受任何 ChatGPT 数据的训练。

Jan, 2024

高效利用语言先验进行场景文本定位

通过利用大型文本语料库中的语言知识，替换自回归场景文本定位和识别模型中传统的独热编码，提高了场景文本定位和识别性能，并实现了更准确的词语定位。

Feb, 2024

SPTS：单点文字定位

提出了一种新的场景文本识别方法，使用单点标注替代昂贵的边界框标注，将场景文本定位和识别视为序列预测任务，并使用自回归 Transformer 模型预测序列，可达到最先进的识别效果。

Dec, 2021

Mask TextSpotter：一种端到端可训练神经网络，用于检测任意形状的文本

本文提出了一种名为 Mask TextSpotter 的针对场景文本定位和识别问题的端到端训练的神经网络模型，并在 ICDAR2013、ICDAR2015 和 Total-Text 数据集上进行了实验，展现出在场景文本检测和端到端文本识别任务方面的最新水平。

Jul, 2018

利用多语言数据集进行预训练的能力：提升文本定位性能

基于中间表示的领域自适应场景文本识别模型，以达到在各个领域中的高准确性和高效率。

Oct, 2023

自然场景下端到端文本识别

该研究提出了一种统一的网络，同时定位和识别文本，通过使用卷积特征和 $2$D 注意力模型实现对任意形状文本的鲁棒定位和识别，避免了中间过程，取得了包括正常及不规则文本在内的多个标准数据集的最佳表现。

Jun, 2019