- ICML面向统一的多粒度文本检测与交互式注意力
存在的 OCR 引擎或文档图像分析系统通常依靠在不同场景和细粒度上训练独立模型来进行文本检测,导致重要的计算复杂性和资源需求。本文介绍了一种名为 “任意文本检测”(DAT)的先进范例,它将场景文本检测、布局分析和文档页面检测无缝统一为一个连 - CVPR文本分组适配器:为布局分析适配预训练的文本检测器
利用 Text Grouping Adapter(TGA)模块,将各种预训练文本检测器有效地用于学习布局分析,达到优秀的布局分析性能,同时继承预训练的普适文本检测能力。
- ODM:场景文本检测和定位的文本图像进一步对齐预训练方法
提出了一种新的预训练方法,OCR-Text Destylization Modeling(ODM),能够更好地对齐文本和 OCR-Text,使预训练模型适应场景文本检测和识别任务中的复杂多样的风格,并通过新的标注生成方法和 Text-Con - AAAICPN: 用于非受限文本检测的补充提案网络
通过整合语义和几何信息,提出了一种互补建议网络(CPN)来改进场景文字检测,并在可比较的计算成本下,显著超越现有方法在 ICDAR19-ArT、IC15 和 MSRA-TD500 等基准上分别取得了 3.6%,1.3%和 1.0%的改进。
- EK-Net:基于扩展核距离的实时场景文本检测
在本文中,我们提出了一种名为 Expand Kernel Network (EK-Net) 的新方法,该方法通过采用扩展内核距离解决了现有方法中存在的偏差问题,包括三阶段回归完成实例检测。此外,EK-Net 不仅可以实现任意形状文本的精确定 - 文本区域多信息感知网络用于场景文本检测
该论文介绍了一种称为区域多信息感知模块(RMIPM)的即插即用模块,可以增强基于分割的算法的检测性能,多种类型的信息可以感知到场景文本区域,实验证明与最先进的算法相比,该方法具有可比较的性能。
- 构建合成与真实世界的预训练场景文本检测器
借助综合利用大规模有注释的合成数据(LSD)和未标记真实数据(URD)的 FreeReal 预训练范式,通过一种新颖的基于字符结构的混合机制(GlyphMix)以及在各种语言环境下有效地修补英语主导 LSD 到 URD 所引起的语言域差异, - MixNet: 在野外准确检测具挑战性场景文本的研究
MixNet 是一种综合 CNN 和 Transformer 优势的混合架构,能够准确地检测小文本,不受方向、风格和光照条件的影响。MixNet 通过 Feature Shuffle Network(FSNet)和 Central Tran - 将 CLIP 模型转变为场景文本识别器
通过使用大规模对比语言 - 图像预训练(CLIP)模型,我们将其转化为强大的骨干模型 FastTCM-CR50,从而提升场景文本检测和标记任务的能力。FastTCM-CR50 利用了 CLIP 中的视觉提示学习和交叉注意机制,提取图像和基于 - MM实时场景文字检测的鲁棒性研究:从语义到实例表达学习
通过引入辅助任务,利用全局稠密语义对比和自上而下建模来联合学习鲁棒特征,从而实现更强大的实时场景文本检测。
- CT-Net: 通过轮廓变换器进行任意形状文本检测
通过渐进式轮廓回归及轮廓变换器,我们提出了一种名为 CT-Net 的新型任意形状场景文本检测框架,以解决前端轮廓初始化不准确、多阶段误差累积或局部信息聚合不足的限制,并通过大量实验验证了其在准确性和效率方面超越了现有方法。
- 低秩逼近网络高效准确的场景文字检测
提出了一种名为 LRANet 的文本检测器,该方法基于双重匹配方案用于正样本,利用低秩近似的文本轮廓表示方法来处理不规则形状文本,提高速度与准确性,并在三个数据集上展示了该方法的比较优越性。
- ECCV场景文本检测中的移位不变性
通过一个简单的合成实验,我们展示了最先进的全卷积文字检测器固有的移位差异性。我们展示了如何进行小的体系结构更改,可以带来改善的移位平稳性和检测器输出的变化较小。我们提出了一个基于深度学习已有的文字检测基准的度量,用于量化移位可变性的程度。尽 - AAAIDPText-DETR: 基于 Transformer 与动态点的更好的场景文本检测
本文提出了一种 DPText-DETR 算法,利用明确的点坐标直接生成位置查询,并动态地以渐进的方式更新它们。同时,提出了一种增强的分解自我注意力模块,为每个实例提供具有圆形形状指导的点查询,以及一种简单而有效的位置标签形式来解决之前形式的 - CVPR提高场景文本检测器的视觉语言预训练
本文研究了视觉 - 语言联合表征学习在场景文本检测中的应用,提出了利用视觉 - 语言预训练学习得到的上下文化联合表征来提高场景文本检测器的性能,通过三个 pretext tasks 来进行预训练,在标准基准测试中证明了该方法能够显著提高各种 - CVPR少胜于全:场景文本检测的特征采样和分组
本文提出了一种简单而有效的基于变压器的场景文本检测模型,该模型通过选取几个代表性特征进行文本检测,借助变压器模型建模其特征之间的关系,实现将文本实例划分为合理的组,并轻易地获得其边界框,从而在多个数据集上取得了最新的成果。
- CVPR朝着端到端的统一场景文本检测和布局分析
本论文提出了统一场景文本检测和布局分析任务,并介绍了一种能够同时检测场景文本和形成文本聚类的方法以及一个首个分层场景文本数据集,全面实验证明了所提出的统一模型在多个基线方法上实现了更好的性能,此外,该模型还在多个场景文本检测数据集上实现了最 - 使用深度强化学习进行弱监督场景文本检测
本文提出了一个基于弱监督和增强学习的场景文本检测方法,使用神经网络估计强化学习智能体的奖励值,且在真实数据和合成数据相结合的半监督学习中表现最佳。
- MMMask 是你所需要的:重新思考 Mask R-CNN 用于密集和任意形状场景文本检测
本文针对 Mask R-CNN 在场景文本检测与定位中面临的实际问题,提出了一种基于 MLP 解码器和实例感知掩模学习技术的方法,可以显著提高鲁棒性。同时提出了一种自适应标签分配方法,以应对比例和宽高比差异较大的实例问题。该方法在多个基准测 - CentripetalText: 一种用于场景文本检测的高效文本实例表示
提出一种名为 CentripetalText 的文本实例表示方法,通过将文本实例分解为文本核和向心移位的组合来提高检测精度,在检测和识别场景文本方面表现良好。