TransDocs:基于光学字符识别和逐字翻译的翻译工具
本文提出了一种名为 TrOCR 的端到端文本识别方法,其中使用了预训练的图像 Transformer 和文本 Transformer 模型,不仅适用于印刷体和手写体,还适用于场景文本识别任务,并在准确率方面优于当前最先进的模型。
Sep, 2021
通过对 OCR 进行字符级图像检索建模,解决了现有体系结构在低资源情况下无法准确识别光学字符识别问题的不足,并为社区参与使数字历史更具代表性开辟了新的途径。
Apr, 2023
本研究旨在通过对预训练基础 OCR 模型进行有效的参数微调,在各种下游任务中展示出卓越的性能。我们提出了一种基于预训练 OCR Transformer 的参数高效混合文本识别方法,即 DLoRA-TrOCR。该方法将 DoRA 嵌入图像编码器和 LoRA 嵌入文本解码器的内部结构,使得下游任务的参数微调更加高效。实验结果表明,与类似的参数调整方法相比,我们的模型 DLoRA-TrOCR 具有最少的参数,并且表现更好。它可以在包括混合手写、印刷和街景文本的复杂场景数据集上取得最先进的性能。
Apr, 2024
提出了一种基于 Vision-Language Transformer (VLT) 的新型场景文本识别器 (Levenshtein OCR),利用交叉模态 Transformer 相互融合和逐步近似 ground truth, 通过模拟学习,实现并行解码,动态长度变化和良好的可解释性。实验证明,LevOCR 在标准基准测试中实现了最新水平,LevOCR 算法的有效性和优势得到了定量和定性分析的验证。
Sep, 2022
本研究提出了一种基于循环神经网络和卷积神经网络的光学字符识别错误自动纠正方法,针对历史藏书文献的 OCR 后置处理,以很高的效率在德语历史图书文献语料库中降低了字符误差率 32.3%以上。
Feb, 2021
本文提出一种无分割 OCR 系统,该系统将深度学习方法、数据增强方法和合成训练数据结合起来,使用大型文本语料库和 2000 多种字体渲染合成训练数据,并通过几何失真和提出的 alpha-compositing 数据增强技术模拟复杂的自然环境,并采用 CNN 编码器以提取文本图像特征,检验了序列模型与卷积模型在模拟输入元素交互方面的能力。
Jun, 2019
本文介绍了使用神经序列到序列模型在现有数据集上达到最先进或接近最先进的结果,以转录为重点组件的机器翻译系统和软件国际化。为了使机器转录易于使用,我们开放了一个新的阿拉伯文到英文的转录数据集和我们训练的模型。
Oct, 2016
这篇论文介绍了一种算法,能够在 OCR 系统中在运行时高效生成和附加特定领域的基于单词的语言模型,并且介绍了一种改进的 CTC 束搜索解码器,有效地使得假设能够基于可能的未来词汇完成保持竞争,从而显著降低了识别专业领域材料时的词错误率。
Aug, 2023
本文针对旁遮普文字的光学字符识别任务,提出一种基于数学形态学的分割方法、深度卷积神经网络的分类模块及三次马尔可夫链式语言建模的末端至末端框架,取得了最新的错误率优化效果,并详尽阐述了深度学习实现过程中所需的众多技巧所依据的统计学理论。
Sep, 2015
本篇论文介绍了一种使用 OCR 技术对西藏手稿进行数字化处理并采用神经拼写纠正模型进行自动纠正噪声输出的方法, 通过 Transformer + 置信度得分机制,证明该方法比 Transformer,LSTM-2-LSTM 和 GRU-2-GRU 架构更为优越,为人文社科领域研究提供了方便。
Apr, 2023