- 基于 LLMs 的块级文本检测
通过利用大型语言模型的强大语义知识,提出了一种新颖方法 BTS-LLM(基于 LLM 的区块级文本识别),以在图像中识别区块级别的文本,从而增强后续应用中的上下文信息和文本纠错功能。
- VimTS:用于增强跨领域泛化能力的统一视频和图像文本识别器
通过集成多任务模型、合成视频文本数据集和学习时序信息,VimTS 模型在跨领域场景文本检测任务中展现出卓越的性能,并且相较于现有的大型多模态模型,所需参数和数据更为少。
- CVPR在端到端和两步法文本定位之间建立桥梁
通过引入 Bridging Text Spotting 方法,本文解决了两步方法中存在的错误累积和次优性能问题,同时保留了模块化特性。通过将训练良好的检测器和识别器锁定参数,并通过初始化权重为零的神经网络连接它们,确保了检测中的大感受野特征 - CVPROmniParser: 文本检测、关键信息提取和表格识别的统一框架
通过构建一个统一的模型 OmniParser,本文在处理不同场景的可视化文本解析问题上取得了最先进的性能,并且在文本定位、关键信息提取和表格识别任务上表现出色。
- 高效利用语言先验进行场景文本定位
通过利用大型文本语料库中的语言知识,替换自回归场景文本定位和识别模型中传统的独热编码,提高了场景文本定位和识别性能,并实现了更准确的词语定位。
- 具有几何先验的变形鲁棒文本识别
通过构建具有形状变形和字体多样性的中国艺术数据集,提出了一种变形鲁棒的文本定位方法 (DR TextSpotter),该方法利用几何先验模块和图卷积网络融合字符特征和标记特征,并进行语义推理以增强对不同字符的区分,实验证明了该方法的有效性。
- CVPR基于序列生成的统一场景文本识别
提出一种名为 UNITS 的统一文本识别模型,该模型能够检测任意形状的文本,并利用起始点提示技术从任意起始点提取文本,相较于现有技术表现更具竞争力。
- OTS:一种用于历史手稿文本定位的单次学习方法
通过一种新颖的一次学习文本定位方法,即 One-shot learning-based Text Spotting (OTS) 方法,该方法结合了认知研究中的方法,通过空间对齐模块来找到并学习查询图像中最具有区分性的空间区域。同时,引入一种 - SPTS v2:单点场景文本检测
本文提出了 SPTS v2 框架,采用单点注释作为代替传统文本检测与识别的昂贵手工注释方法。采用基于自回归 Transformer 的 IAD 对同一预测序列内所有文本实例的中心点进行预测,采用 PRD 进行文本识别。详细实验结果证明该方法 - ECCV全球到本地注意力自然场景文字检测
通过融合全局和局部特征的新型 GLASS 全局到局部注意机制,同时引入定向感知损失项以提高检测和识别表现,在多个基准测试中实现了最先进的结果。
- ECCV动态低分辨率蒸馏用于高效端到端文本检测
本文提出了一种全新的具有成本效益的动态低分辨率蒸馏(DLD)文本识别框架,其中采用了分辨率选择器来动态确定不同图像的输入分辨率,并对文本识别分支进行了连续知识蒸馏策略,使低分辨率图像的性能得到了改善。
- CVPR文本检测变形金刚
本文提出了一种名为 TESTR 的通用的基于 Transformers 的端到端的文本检测与识别框架,其有效地解决了曲线文本框表示所需要的特殊关注的问题,并在曲线和任意形状的数据集上展现出最先进的性能。
- 使用多任务变压器实现弱监督文本识别
介绍一种基于 transformer 的文本定位方法 TextTranSpotter (TTS),该方法可以在全监督和弱监督的情况下训练,并使用基于 Hungarian loss 的新型损失函数,不需要昂贵的本地化注释,通过每个单词检测学习 - PAN++:高效准确的任意形状文本端到端定位
本文提出了一个基于核心表示的端到端文本发现框架,可在自然场景中检测和识别任意形状的文本,并取得了竞争性的精度和高速度。
- AAAIPGNet:基于点集聚合的任意形状实时文本检测网络
本文提出了全卷积的点聚集网络(PGNet)用于实时读取任意形状的文字,并且在减少 NMS 和 RoI 操作的同时,通过提出的 PG-CTC 损失对像素级别的字符分类图进行学习,避免使用字符级别注释。同时,通过建立字符与其相邻字符之间的联系, - AAAI现实世界中稳健的视觉信息提取:新数据集和新方法
本文提出了一种鲁棒的视觉信息提取系统(VIES),它是一个统一的端到端可训练框架,用于同时进行文本检测、识别和信息提取。同时,本文构建了一个名为 EPHOIE 的数据集,它是用于文本定位和视觉信息提取的第一个中文基准数据集。与最先进的方法相 - CVPR在自然场景中检测任意形状文本的方法,改进文本识别
提出了一种基于流水线的文本识别框架 UHTA,其中包括用于检测的 UHT 和用于识别的 ASTER。在多个公共场景文本检测数据集上的实验结果表明,UHT 在检测自然场景图像中文本方面具有较好的性能和通用性。
- EMNLP基于语义相关性的文本识别再排序
我们提出了一种神经方法来学习语义相关性,并通过学习单词对句子或单词到单词的关系分数来改善文本识别性能,证明了在识别图像中的文本时,语义相关性可以优于其他度量标准。
- 自然场景下端到端文本识别
该研究提出了一种统一的网络,同时定位和识别文本,通过使用卷积特征和 $2$D 注意力模型实现对任意形状文本的鲁棒定位和识别,避免了中间过程,取得了包括正常及不规则文本在内的多个标准数据集的最佳表现。
- 使用卷积神经网络从自然场景中读取文本
本研究介绍了一种基于卷积神经网络的端到端文本识别、图像检索系统,使用了一些新颖的深度学习技术实现文本定位、识别、筛选和排序,在多个基准测试数据集上获得了最先进的性能表现,并应用于新闻视频检索中。