- 基于 Transformer 的光学字符识别对抗攻击的脆弱性分析
基于 Transformer 的 OCR 模型的韧性评估表明,非定向攻击对其高度脆弱,而定向攻击相对较弱;在基准手写数据集上,非定向攻击几乎无法察觉,造成字符错误率超过 1;而具有类似扰动大小的定向攻击可以以大约 25%的成功率攻击单个标记 - 优化文化打字文件字符识别图像处理算法
利用多目标问题公式和非支配排序遗传算法(NSGA-II)调整参数,本文评估了在光学字符识别(OCR)应用于打字文化遗产文件时图像处理方法和参数调整的影响,并发现通过数字表示类型来针对图像预处理算法进行参数化可以提高 OCR 的性能。特别是自 - DECDM:利用循环一致性扩散模型进行文档增强
基于扩散模型的光学字符识别(OCR)在自动文档处理和文档智能方面对文档图像质量非常依赖,研究提出了一种新的端到端文档级图像转换方法 DECDM 来解决现有方法的数据分离和隐私保护问题,该方法通过独立训练源和目标模型,消除了配对训练的限制,提 - 泥地间的阅读:一个具挑战性的摩托车赛车手编号数据集
本文介绍了离线摩托车 Racer 编号数据集 (RnD),这是一个针对光学字符识别 (OCR) 研究的新的具有挑战性的数据集。RnD 包含来自专业摩托车赛车摄影师的 2,411 张图像,展示了越野比赛中的摩托车赛车手。该数据集具有使 OCR - 探索 GPT-4V 的 OCR 能力:定量和深入评估
GPT-4V 综合评估了最近发布的大型多模态模型 (GPT-4V (ision)) 在光学字符识别 (OCR) 方面的能力,发现其在识别和理解拉丁内容方面表现良好,但在多语言情境和复杂任务中存在困难。基于这些观察,我们深入探讨了专门的 OC - EfficientOCR: 高效数字化世界知识的可扩展开源软件包
EffOCR 是一种开源 OCR 包,以字符或单词级图像检索问题的方式模拟 OCR,具有成本低、样本高效、易于部署和定制等优点,并在历史文件和日文文档的数字化上取得了成功。
- 隐形威胁:OCR 系统中的后门攻击
提出一种光学字符识别 OCR 后门攻击,通过插入非可读字符的恶意输入图像,使 OCR 模型在某些实例中输出非可读字符,同时不影响其在其他实例中的性能。
- DTrOCR:解码器专用的 Transformer 用于光学字符识别
通过使用 Decoder-only Transformer 作为生成式语言模型,本研究提出了一种相对简单而有效的文本识别方法 DTrOCR,实验结果表明 DTrOCR 在识别印刷、手写和场景文本方面比当前的最先进方法表现出更好的性能。
- DISGO: 场景文本 OCR 自动端到端评估
本文讨论了在自然场景中进行光学字符识别(OCR)所面临的挑战,这比在文档上进行 OCR 要困难,因为场景中内容狂野,图像背景各异。我们提出统一使用词误差率(WER)作为评估场景文本 OCR 的新度量,包括端到端(e2e)性能和各个系统组件的 - 诺加:学术文档的神经光学理解
我们提出了一种名为 Nougat 的神经光学理解学术文档的模型,它使用光学字符识别(OCR)将科学文档转换为标记语言。该方法有效地提高了数字时代科学知识的可访问性,将人类可读文档和机器可读文本之间的鸿沟缩小。我们发布了相关模型和代码以促进科 - bbOCR:一个用于孟加拉文档的开源多领域 OCR 处理流程
本文介绍了 Bengali.AI-BRACU-OCR(bbOCR):一种开源可扩展的文档光学字符识别系统,可将孟加拉语文档重构为结构化的可搜索的数字化格式,并提出了一种新颖的孟加拉语文本识别模型和两个合成数据集。全面的组件级和系统级评估结果 - 使用自定义词汇的 OCR 语言模型
这篇论文介绍了一种算法,能够在 OCR 系统中在运行时高效生成和附加特定领域的基于单词的语言模型,并且介绍了一种改进的 CTC 束搜索解码器,有效地使得假设能够基于可能的未来词汇完成保持竞争,从而显著降低了识别专业领域材料时的词错误率。
- 通用防御底图补丁:使您的文本在光学字符识别中变得不可见
通过修改文本图像的底层绘画而非字符,提出了一种新颖有效的防御机制,称为 “通用防御底层绘画补丁(UDUP)”,能够防御未经授权的 OCR,并且对任何屏幕截图范围或复杂图像背景设置都有效。
- MM面向零样本字符识别的黄金标准数据集及基于部首级别的标注
构建一个包含基本水平和字符水平注释的古代汉字图像数据集,并提出一种基于字符分解和重组的零样本光学字符识别基准模型,实验证明了数据集和基准模型的有效性。
- 为历史希伯来文本的 OCR 错误修正构建特定时期优化的神经网络
使用新的多阶段方法生成 OCR 错误的人工训练数据集,并进行超参数优化,以构建有效的神经网络来纠正希伯来语的 OCR 后校正。
- ICCV手写和印刷文本分割:一个签名案例研究
本篇论文研究了手写文本与印刷文本重叠造成的光学字符识别(OCR)和数字化过程中的困难,并引入了一个新的数据集和模型,以改善对重叠部分的识别性能。最佳配置的 IoU 得分相较于先前的工作,在两个不同的数据集上分别提高了 17.9% 和 7.3 - 通过自然语言处理进行后处理以改善光学字符识别的新型流程
提出了一种使用自然语言处理(NLP)工具的后处理方法,在手写或打印文本上先进行光学字符识别(OCR),然后使用 NLP 提高其准确性。
- 人工眼晴盲人
基于 Raspberry pi3 的人工眼模型,通过对象检测、光学字符识别和 Mycroft 语音辅助模型,提供视障人士的障碍物检测和文字转语音功能。
- TransDocAnalyser:法律领域离线半结构手写文档分析框架
本研究提出了第一个针对法律领域的半结构化文档分析数据集,称为 FIR 数据集,并使用 Faster-RCNN 和 Vision Transformers 构建了端到端的离线处理框架,实现了印刷体和手写体文本的边界定位、标注和识别,通过针对入 - 构建多元数字历史的高效 OCR
通过对 OCR 进行字符级图像检索建模,解决了现有体系结构在低资源情况下无法准确识别光学字符识别问题的不足,并为社区参与使数字历史更具代表性开辟了新的途径。