PBFormer：使用多项式带变换器捕捉复杂场景文字形状

MMAug, 2023

PBFormer：使用多项式带变换器捕捉复杂场景文字形状

PBFormer: Capturing Complex Scene Text Shape with Polynomial Band Transformer

PDF

Ruijin Liu, Ning Lu, Dapeng Chen, Cheng Li, Zejian Yuan...

TL;DR我们提出了 PBFormer，一种高效而强大的场景文本检测器，将变压器和一种新颖的文本形状表示多项式带（PB）结合起来。

Abstract

We present pbformer, an efficient yet powerful scene text detector that unifies the transformer with a novel →

pbformer scene text detector polynomial band transformer text shape representation

发现论文，激发创造

PolyFormer: 将图像分割视为序列多边形生成

该论文提出一种基于序列多边形生成框架 Polygon Transformer (PolyFormer) 的图像分割方法，通过生成多边形顶点序列实现对图像分割的参照。该方法在 RefCOCO+ 等实际数据集上表现优异，性能提升明显。

Feb, 2023

Box2Poly: 内存高效多边形预测任意形状和旋转文本

通过使用 Sparse R-CNN 中的级联解码流程进行多边形预测，我们提出了一种创新的方法来解决基于 Transformer 的文本检测技术中的挑战，既能提高精度，又能减少内存占用和推理速度。

Sep, 2023

通过边界变换进行任意形状文本检测

通过边界学习，分层迭代地优化边界变形并结合边缘提议模块，从而在有效地定位文本边界的同时，简单高效地检测任意形状的文本。

May, 2022

基于 Transformer 的场景文本识别

本论文提出了一种基于 transformer 的简单但极其有效的场景文本识别方法，只需要空间注意力而不需要矫正图像，仅使用卷积特征图作为单词嵌入输入到 transformer 中，并在大规模实验中取得了显著的优越性能。

Mar, 2020

TextFormer：一种基于查询的端对端混合监督文字定位器

TextFormer 提出了一种使用 Transformer 架构实现的查询式端到端文本定位算法，采用多任务建模的联合语义理解，并通过自适应全局聚合模块处理任意形状的文本，通过弱监督和全标注的语料库信息提升检测和端到端文本定位结果，实现了在双语数据集上的显著优势。

Jun, 2023

DPText-DETR: 基于 Transformer 与动态点的更好的场景文本检测

本文提出了一种 DPText-DETR 算法，利用明确的点坐标直接生成位置查询，并动态地以渐进的方式更新它们。同时，提出了一种增强的分解自我注意力模块，为每个实例提供具有圆形形状指导的点查询，以及一种简单而有效的位置标签形式来解决之前形式的副作用，在 500 个手动标记的图像上进行了实验证明了本方法在各种基准测试中的高训练效率、鲁棒性和最先进性能。

Jul, 2022

ProFormer：基于设备的局部敏感哈希投影变形器

ProFormer 是一种基于投影的变压器架构，使用 LSH 投影层动态生成字表示，提高了效率和空间利用率，使用本地投影注意层进一步减少计算量，相较于 BERT 模型在设备上的表现更快更小。

Apr, 2020

P2PFormer：一种从遥感影像中提取规则建筑轮廓的点 - 多边形方法

从遥感图像中提取建筑轮廓是一个重要的挑战，本文介绍了一种新的流线型流程以无需后处理生成规则的建筑轮廓，使用分割通用几何图元并预测它们的顺序，在此基础上，开发了一个利用 Transformer 架构的 P2PFormer，通过引入群体查询的独特表示方法，结合创新的内隐更新策略，提高了图元分割的质量，实验证明 P2PFormer 在多个数据集上表现优于先前的方法。

Jun, 2024

少胜于全：场景文本检测的特征采样和分组

本文提出了一种简单而有效的基于变压器的场景文本检测模型，该模型通过选取几个代表性特征进行文本检测，借助变压器模型建模其特征之间的关系，实现将文本实例划分为合理的组，并轻易地获得其边界框，从而在多个数据集上取得了最新的成果。

Mar, 2022

BatchFormerV2: 探索密集表示学习样本关系

本文提出了一种新的 Batch Transformer 模块，即 BatchFormerV2，可以进一步探索密集表示学习，适用于各种常见的视觉识别任务，包括图像分类、目标检测和全景分割，改进了几种基于 DETR 的目标检测方法 (例如 DETR、Deformable-DETR、Conditional DETR 和 SMCA) 1.3% 以上。

Apr, 2022