- 寻找高性能的文本识别网络特征提取器
本文提出一种利用神经架构搜索算法搜索适合特征提取的方法,设计一个特定领域中的搜索空间,包括针对空间模型和序列模型的 3D 结构空间和变换空间,并引入延迟限制的搜索算法来加速搜索,实验结果表明该方法能够在手写和场景文本识别任务中取得较好的识别 - ECCV通过强化学习调整注释边界框,提高端到端场景文本识别的最优性
本文提出了一种名为 Box Adjuster 的基于强化学习的方法,用于调整每个文本边界框的形状以使其更与文本识别模型兼容。此外,当处理跨域问题时,该方法显著减少源域和目标域之间的分布不匹配。实验证明,使用调整后的边界框作为训练的基础可以提 - ECCV使用置换自回归序列模型的场景文本识别
PARSeq 使用 Permutation Language Modeling 学习了一组共享权重的内部 AR 语言模型的集合,实现了无上下文的非 AR 和有上下文的 AR 推理以及使用双向上下文的迭代细化,使用注意力机制进行文本识别,取得 - ECCVCOO:漫画拟声词数据集用于识别任意或截断的文本
为了识别日本漫画中的不规则文字,我们创建了一个新的咚咚文本数据集,其中包含许多任意文本,如极度弯曲、部分缩小的文本或任意放置文本,并提出了预测缩短文本间联系的任务以及检测咚咚文本的区域,并进行了相关实验分析。
- MM自监督文本识别的判别性和生成性建模:阅读与写作
本文提出一种基于对比学习和遮挡图像建模的自监督文本识别方法,实验结果显示,该方法在不规则场景文本识别数据集上优于之前的自监督文本识别方法 10.2%-20.2%,同时,在 11 个基准测试中,该文本识别器的表现也超过了之前的最新方法平均 5 - 基于 CTC 模型的印度语言 OCR 的实证研究
该论文研究了用 CTC 建立神经网络模型的方法,将 13 种印度语言的文字识别单位定为行或单词,使用合成数据训练模型,对比公共 OCR 工具,提出了新的公共数据集 Mozhi,实现了在印度语言中进行单词和行识别的 OCR。
- IJCAIC3-STISR: 三重线索场景文本图像超分辨率
该论文提出了一种结合识别器反馈、视觉和语言信息的方法 C3-STISR 来引导超分辨率,通过有效的提取和融合机制,生成了全面和统一的引导, 在 TextZoom 上的实验表明,C3-STISR 在保真度和识别性能方面优于最先进的方法。
- 基于 Dessurt 的端到端文档识别与理解
Dessurt 是一种相对简单的文档理解变压器,它可以对比以往方法更多种类的文档任务进行微调。该模型能够自动识别文本,无需像以前的方法那样使用外部识别模型。并且 Dessurt 比以前的方法更灵活,能够处理各种文档领域和任务。研究表明,在九 - CVPR面向空间变形鲁棒的文本关注网络用于场景文本图像超分辨率
本论文介绍了基于 CNN 的文本超分辨率方法,其中包括文本识别、文本先验信息提取和全局注意机制等技术,并通过在 TextZoom 数据集上的实验验证了该方法的良好性能和准确性。
- 为视障人士提问的视觉问题提供答案
该研究介绍了用于回答图像问题的 VizWiz-VQA-Grounding 数据集,并分析了当前 SOTA 算法在识别相关视觉证据方面的不足,尤其是在处理占整个图像一小部分的高质量图像以及需要文本识别技能的视觉问题方面。
- 场景文本识别的视觉语义变换器
本文提出了一种 Visual-Semantic Transformer 的模型,通过 Transformer 模块和视觉 - 语义对齐模块从视觉特征映射中提取出主要的语义信息,然后将语义信息和视觉特征序列组合成伪多域序列,进而通过交互模块增 - TrOCR: 基于 Transformer 的带预训练模型的光学字符识别
本文提出了一种名为 TrOCR 的端到端文本识别方法,其中使用了预训练的图像 Transformer 和文本 Transformer 模型,不仅适用于印刷体和手写体,还适用于场景文本识别任务,并在准确率方面优于当前最先进的模型。
- ICCV多源域自适应的元自学习:基准
本文的研究着重于文本识别问题,通过提出元自学习方法 (Meta Self-Learning) 和收集包含 5 个不同领域的超过 5 百万张图像的多源领域适应数据集,提供了一个基准测试,实验结果证明了我们的方法的有效性。
- ICCV文本相同,无分别:知识蒸馏统一文本识别
本研究提出了一种知识蒸馏技术来实现场景文本识别(STR)和手写文本识别(HTR)的统一。通过三种蒸馏损失函数的提出,本文所提出的文本识别模型在性能上优于使用 STR 模型或 HTR 模型的单独模型和其他基准线和领域自适应 / 泛化方案。
- ICCV联合视觉语义推理:多阶段文本识别解码器
通过引入语义信息,该论文提出了一种基于多级多尺度注意力解码器的视觉 - 语义推理方法,使用以往的视觉特征进行预测并使用多级注意力进行精细化的预测,获得了比现有技术达到了更好的性能。
- 基于文本先验引导的场景文本图像超分辨率
本文介绍了一种多阶段文字先验指导的超分辨率 (STISR) 分类模型,在基准 TextZoom 数据集上表现出明显的改进,通过将字符概率序列作为文本先验嵌入到 STISR 模型训练中,以提高低分辨率场景文本图像的分辨率和视觉质量,从而有效提 - CVPR隐式特征对齐:学习将文本识别器转换为文本检测器
本文提出了一种名为隐式特征对齐的范式,它可以被轻松地集成到当前的文本识别器中,从而使普通的文本识别器能够处理多行文本,而不必由文本检测器限制。实验证明,这种方法在保持最快速度的同时,实现了最先进的端到端文档识别任务的性能,并且 ADP 和 - ECCVTextAdaIN:在文本识别器中关注 Shortcut 学习
该研究表明神经网络可能过度依赖于局部图像统计信息,在文本识别任务中,提出了一种名为 TextAdaIN 的方法,通过创建特征图中的本地扭曲来防止网络过度拟合局部统计信息,实验证明该方法改进了文本识别性能并提高了对更具挑战性的测试条件的鲁棒性 - 文本识别的序列对序列对比学习
提出一种基于序列对序列对比学习框架 (SeqCLR) 的视觉表征方法,应用于文本识别,可实现在子单词级别上对比,并进一步建议新颖的数据增广启发式方法、不同的编码器架构和定制投影头来获得对于文本识别而言的有效视觉表征。在手写文本和场景文本上的 - 回答视觉问题所需的视觉技能
本研究旨在发掘视觉问答任务中的共同视觉技能,包括目标识别、文本识别、颜色识别和计数,并探讨这些技能对于人类和计算机的难易程度,最终提出了一个新的任务 —— 预测回答图像问题所需的视觉技能。我们的研究结果显示了实际用户需求与人工智能社区关注的