- 结合 OCR 模型阅读早期印刷书籍
该论文研究了使用精细字体识别技术对 15 至 18 世纪印刷书籍进行 OCR 的方法。作者们使用了一个新的数据集,其中包含了早期印刷书籍的 OCR 信息,并标记了每个字体的边界框。研究结果表明,字体风格对 OCR 性能有很大影响,所选模型的 - E2TIMT:用于文本图像机器翻译的高效有效的模态适配器
本文旨在提出一种新型的端对端的文本图像翻译模型,充分利用现有的 OCR 和 MT 数据集的知识来追求既有效又高效的框架。我们建立了一种新颖的模态适配器,有效地连接 OCR 编码器和 MT 解码器,并联合使用端到端 TIMT 损失和跨模态对比 - 巴伊巴音字符实例检测
本研究提出了一个计算机视觉系统和一个 Baybayin Optical Character Instance Segmentation 和 Classification 模型,该模型使用卷积神经网络探测图像中的 Baybayin 字符实例并 - TransDocs:基于光学字符识别和逐字翻译的翻译工具
本研究旨在提高 OCR 质量,通过使用 LSTM 技术集成 OCR 与深度学习模型进行文档翻译,并在英语到西班牙语翻译中显示了深度学习模型的比较研究,将终端到终端的性能用 BLEU-4 评分表达,旨在让研究人员和 OCR 应用于文档翻译的实 - 低资源语言阿曼齐文符号图像的光学字符识别和转录
本研究提出了一种基于深度学习的方法,名为 DaToBS,用于自动识别并转录自摄取的图片中的塔芬哈字符。该方法在 Berber 语言中实现了高达 92%的准确性,并有望帮助这种低资源语言更好地参与到教育和 AI 中。
- ICLRStrucTexTv2: 遮蔽式视觉文本预测用于文档图像预训练
本文提出了一种名为 StrucTexTv2 的有效的文档图像预训练框架,通过执行掩码视觉 - 文本预测。它由两个自我监督的预训练任务组成:掩码图像建模和掩码语言建模,基于文本区域级别的图像掩码。经实验验证,该模型在文档图像理解的各个下游任务 - ACL嘈杂的并行数据对齐
本研究旨在研究现有的词级联模型在嘈杂环境下的对齐问题,并通过噪声模拟和结构偏置的方法提高模型的稳健性,从而显著降低基于神经网络的对齐模型的对齐误差率。
- 扩展 TrOCR 实现全页扫描收据图像的文本免定位 OCR
本研究提出了一个基于 Transformer 的 OCR 模型,用于提取收据图像中的字符序列,无需定位文本。该模型能够在不需要额外处理的情况下,将整个收据图像中的字符识别准确,并按阅读顺序排列。
- 一种迟来的多模融合模型用于检测混合垃圾邮件
提出了一种新的基于多模融合的文本和图像的混合垃圾邮件过滤系统,该系统利用卷积神经网络 (CNN) 和连续的词袋模型提取图像和文本部分的特征,并使用机器学习分类器来判断垃圾邮件。
- ECCV多语言文本识别的任务分组
本篇论文提出了一种使用 Gumbel-Softmax 的自动多语言文本识别方法,引入了任务分组损失和加权识别损失,以允许模型和分组模块的同时训练,并验证了将一些语言分为组所带来的参数共享的好处。
- 香度(Chandojnanam):一种梵文韵律辨识与应用系统
Chandojñānam 是一个基于网络的梵语测量(Chanda)识别和利用系统,它支持通过光学字符识别(OCR)引擎识别上传图像的梵语,具有文本批处理的能力,并且能够在出现偏差的数字文集进行基于测量的纠错,并提供友好的用户界面来显示测量规 - 使用文本分割和隐马尔可夫模型在压缩域中直接对 TIFF 压缩文档图像进行 OCR
本研究提出了一种基于 CCITT 压缩机器打印的 TIFF 文档图像的 OCR 方法,通过分割文本区域、CCITT 三种编码模式的 HMM 识别文本,实验结果表明,pass 模式的 OCR 效果有很大的提升。
- PreSTU:场景文本理解的预训练
本文介绍了一种新的预训练方法 PreSTU,利用 OCR 技术将场景中的文本信息识别并与图像其余内容连接起来,经实验证明在视觉问答和图像字幕等任务中取得了良好的效果。
- COLINGAiM:在教育应用中运用心中的答案矫正中文填空测试
本文提出了一种多模型方法(AiM),基于识别 OCR 数据和学生笔迹相互作用的编码答案来纠正学生笔迹,并在填空测试中取得了比 OCR 更好的效果。
- 电子显示屏视频中敏感文字的保留与删除
本文提出一种使用光学字符识别(OCR)和自然语言处理(NLP)技术来从视频中消除个人身份信息的方法,比较了使用 Tesseract 和 Google Cloud Vision(GCV) OCR 模型时的性能,并分析了两种模型在实际应用中的优 - ECCV利用字符分解解决韩文 OCR 中类不平衡问题
本研究提出了一种新颖的方法,使用图形编码直接进行韩文字符(Hangul)的 OCR,以解决现有编码方法在长尾字符分布上性能不佳的问题。我们的方法有效地解决了 Hangul OCR 的两个主要问题:类别不平衡和目标类别选择。
- ECCV通过强化学习调整注释边界框,提高端到端场景文本识别的最优性
本文提出了一种名为 Box Adjuster 的基于强化学习的方法,用于调整每个文本边界框的形状以使其更与文本识别模型兼容。此外,当处理跨域问题时,该方法显著减少源域和目标域之间的分布不匹配。实验证明,使用调整后的边界框作为训练的基础可以提 - MMDavarOCR:OCR 和多模态文档理解工具箱
DavarOCR 是一个开源 OCR 和文档理解工具箱, 19 种先进的算法覆盖 9 种不同的任务形式,提供详细的使用说明和训练模型,并与以前的 OCR 工具箱相比, DavarOCR 在文档理解的子任务方面具有更全面的支持。
- ACLGMN: 实用文档信息提取的生成式多模型网络
该论文提出了一种面向实际场景的多模态生成方法 GMN,利用空间编码器和模态感知掩模模块处理复杂文档的噪声 OCR 结果或可变布局,并避免了字符级注释,实验证明 GMN 在公共 DIE 数据集上取得了新的最佳性能,并且在现实场景中优于其他方法 - 基于 Transformer 的乌尔都文手写文字光学字符识别器
本文介绍了使用 Transformer 来识别复杂的乌尔都手写文本的方法。