使用自定义词汇的 OCR 语言模型
本研究旨在分析 OCR 噪声对多语种语言模型的影响,并发现 OCR 噪声会对语言模型造成显著影响,特别是在少量语料库的情况下,简单的语言模型如 PPMI 和 Word2Vec 可以更好地应对 OCR 噪声。
Jan, 2022
通过对 OCR 进行字符级图像检索建模,解决了现有体系结构在低资源情况下无法准确识别光学字符识别问题的不足,并为社区参与使数字历史更具代表性开辟了新的途径。
Apr, 2023
本文主要介绍了一种将人名加入生成文本的新方法,通过使用 OCR 识别图像中的文字并 fine-tuning 预训练模型,我们的方法在生成文本的时候自然地加入了人名信息。为了达到这个目的,我们修改了之前的多模态框架,接受来自任意数量的辅助分类器提供的相关信息。同时,我们创建了一个新的图像 - 标题数据集,名为 PAC,这个数据集包含了一些知名人物的图像和对这些图像的描述,这些描述中包含了人名。
Jul, 2022
该论文介绍了一种利用 OCR 生产的非数字化的图书和文件实现半监督学习的方法,并通过使用自我训练和词汇解码等技术在四种濒危语言上提高了 OCR 的相对准确率。
Nov, 2021
本研究旨在提高 OCR 质量,通过使用 LSTM 技术集成 OCR 与深度学习模型进行文档翻译,并在英语到西班牙语翻译中显示了深度学习模型的比较研究,将终端到终端的性能用 BLEU-4 评分表达,旨在让研究人员和 OCR 应用于文档翻译的实践者感兴趣。
Apr, 2023
本文提出了一种名为 TrOCR 的端到端文本识别方法,其中使用了预训练的图像 Transformer 和文本 Transformer 模型,不仅适用于印刷体和手写体,还适用于场景文本识别任务,并在准确率方面优于当前最先进的模型。
Sep, 2021
该论文通过对现有公开的多模态模型进行综合研究,评估它们在文本识别、基于文本的视觉问题回答和关键信息提取等任务中的性能,发现这些模型主要依赖于语义理解进行字识别,对单个字符形状的感知较差,同时对文本长度漠不关心,无法有效检测图像中的细粒度特征,在传统文本任务中尚无法与领域特定方法相媲美,面临更大的挑战。
May, 2023
使用具有缓存机制的分层 LSTM 语言模型在多种语言维基百科文章上进行开放词汇量语言建模,通过字符级别的生成实现不同语言之间的数据共享,进而可以有效解决固定词汇量模型中常见的新词问题。
Apr, 2017
本文提出一种无分割 OCR 系统,该系统将深度学习方法、数据增强方法和合成训练数据结合起来,使用大型文本语料库和 2000 多种字体渲染合成训练数据,并通过几何失真和提出的 alpha-compositing 数据增强技术模拟复杂的自然环境,并采用 CNN 编码器以提取文本图像特征,检验了序列模型与卷积模型在模拟输入元素交互方面的能力。
Jun, 2019
本文比较现有多语言模型词汇表生成方法,提出了一种新的多语言词汇表生成方法。实验证明,该方法能够提高多个语言上的推理性能,同时在不增加模型大小或数据的情况下,将语言识别率降低了 8 倍。
Oct, 2020