BriefGPT.xyz
Ask
alpha
关键词
document digitization
搜索结果 - 4
Detectron2 上的孟加拉文档布局分析
我们通过使用 Detectron2 库中的先进 Mask R-CNN 模型改进了 Bengali 文档的 DLA 模型的准确性,评估了三种变体,结果表明这些模型在准确分割 Bengali 文档方面非常有效,同时我们强调了预训练权重的重要性,
→
PDF
10 months ago
bbOCR:一个用于孟加拉文档的开源多领域 OCR 处理流程
本文介绍了 Bengali.AI-BRACU-OCR(bbOCR):一种开源可扩展的文档光学字符识别系统,可将孟加拉语文档重构为结构化的可搜索的数字化格式,并提出了一种新颖的孟加拉语文本识别模型和两个合成数据集。全面的组件级和系统级评估结果
→
PDF
a year ago
DocScanner: 具有渐进式学习的鲁棒性文档图像矫正
DocScanner 是一个新颖的文件图像矫正框架,它维护了单个矫正图像的估计,并通过一种递归机制进行了逐步纠正。基于几何先验,还引入了一种几何规则化来进一步提高纠正质量,并在 Doc3D 数据集和 DocUNet 基准数据集上进行了广泛实
→
PDF
3 years ago
KDD
提高光学字符识别文本自然语言处理准确性的框架
本文介绍了一种有效的框架,使用实体识别作为示例,通过构建文档合成流水线,生成具有实际应用价值的有损数据并训练文本修复模型,从而解决 OCR 错误导致的实体识别精度下降问题。
PDF
3 years ago
Prev
Next