BriefGPT.xyz
大模型
Ask
alpha
关键词
ocr errors
搜索结果 - 5
为西里尔手写文字的 OCR 后修正生成数据
该论文介绍了一种针对手写西里尔文文本的后光学字符识别校正(POC)的新方法,该方法利用 Bézier 曲线生成引擎生成高度逼真的手写文本,并应用手写文本识别模型识别 OCR 错误,从而进行校正。
PDF
7 months ago
EMNLP
GenKIE:鲁棒的生成多模态文档关键信息抽取
提出了一种名为 GenKIE 的新型生成式端到端模型,利用多模态编码器嵌入视觉、版面布局和文本特征,并利用解码器生成所需的输出,从而解决了来自扫描文档的关键信息抽取任务。实验证明 GenKIE 能够有效泛化到不同类型的文档,并在 OCR 错
→
PDF
8 months ago
从晦涩难懂的手写文档图像中进行弱监督信息提取
本文讨论了采用弱标签数据从手写处方单中提取药名的问题,并提出一种新的方法,并证明该方法比现有的最先进技术方法表现更好。
PDF
a year ago
LaTr: 面向场景文本 VQA 的布局感知 Transformer
提出了一种新的多模态体系结构 Layout-Aware Transformer(LaTr)来进行场景文本视觉问答(STVQA),并提出了一种单一目标的预训练方案,该方案仅需要文本和空间线索。 LaTr 通过将语言和布局信息联系起来,可以学习
→
PDF
3 years ago
EMNLP
清洗脏数据:用于先前扫描文本的 OCR 后处理
本文探讨了语言模型的改进如何在不考虑扫描图像本身的情况下检测和纠正 OCR 错误,并给出了处理重复扫描图书的方法和单本文本的纠错方法以及扫描质量与其他因素的关系分析。
PDF
3 years ago
Prev
Next