PBFormer:使用多项式带变换器捕捉复杂场景文字形状
该论文提出一种基于序列多边形生成框架 Polygon Transformer (PolyFormer) 的图像分割方法,通过生成多边形顶点序列实现对图像分割的参照。该方法在 RefCOCO+ 等实际数据集上表现优异,性能提升明显。
Feb, 2023
通过使用 Sparse R-CNN 中的级联解码流程进行多边形预测,我们提出了一种创新的方法来解决基于 Transformer 的文本检测技术中的挑战,既能提高精度,又能减少内存占用和推理速度。
Sep, 2023
本论文提出了一种基于 transformer 的简单但极其有效的场景文本识别方法,只需要空间注意力而不需要矫正图像,仅使用卷积特征图作为单词嵌入输入到 transformer 中,并在大规模实验中取得了显著的优越性能。
Mar, 2020
TextFormer 提出了一种使用 Transformer 架构实现的查询式端到端文本定位算法,采用多任务建模的联合语义理解,并通过自适应全局聚合模块处理任意形状的文本,通过弱监督和全标注的语料库信息提升检测和端到端文本定位结果,实现了在双语数据集上的显著优势。
Jun, 2023
本文提出了一种 DPText-DETR 算法,利用明确的点坐标直接生成位置查询,并动态地以渐进的方式更新它们。同时,提出了一种增强的分解自我注意力模块,为每个实例提供具有圆形形状指导的点查询,以及一种简单而有效的位置标签形式来解决之前形式的副作用,在 500 个手动标记的图像上进行了实验证明了本方法在各种基准测试中的高训练效率、鲁棒性和最先进性能。
Jul, 2022
ProFormer 是一种基于投影的变压器架构,使用 LSH 投影层动态生成字表示,提高了效率和空间利用率,使用本地投影注意层进一步减少计算量,相较于 BERT 模型在设备上的表现更快更小。
Apr, 2020
从遥感图像中提取建筑轮廓是一个重要的挑战,本文介绍了一种新的流线型流程以无需后处理生成规则的建筑轮廓,使用分割通用几何图元并预测它们的顺序,在此基础上,开发了一个利用 Transformer 架构的 P2PFormer,通过引入群体查询的独特表示方法,结合创新的内隐更新策略,提高了图元分割的质量,实验证明 P2PFormer 在多个数据集上表现优于先前的方法。
Jun, 2024
本文提出了一种简单而有效的基于变压器的场景文本检测模型,该模型通过选取几个代表性特征进行文本检测,借助变压器模型建模其特征之间的关系,实现将文本实例划分为合理的组,并轻易地获得其边界框,从而在多个数据集上取得了最新的成果。
Mar, 2022
本文提出了一种新的 Batch Transformer 模块,即 BatchFormerV2,可以进一步探索密集表示学习,适用于各种常见的视觉识别任务,包括图像分类、目标检测和全景分割,改进了几种基于 DETR 的目标检测方法 (例如 DETR、Deformable-DETR、Conditional DETR 和 SMCA) 1.3% 以上。
Apr, 2022