document digitization | BriefGPT

关键词document digitization

搜索结果 - 4

Detectron2 上的孟加拉文档布局分析
我们通过使用 Detectron2 库中的先进 Mask R-CNN 模型改进了 Bengali 文档的 DLA 模型的准确性，评估了三种变体，结果表明这些模型在准确分割 Bengali 文档方面非常有效，同时我们强调了预训练权重的重要性，
PDF10 months ago
bbOCR：一个用于孟加拉文档的开源多领域 OCR 处理流程
本文介绍了 Bengali.AI-BRACU-OCR（bbOCR）：一种开源可扩展的文档光学字符识别系统，可将孟加拉语文档重构为结构化的可搜索的数字化格式，并提出了一种新颖的孟加拉语文本识别模型和两个合成数据集。全面的组件级和系统级评估结果
PDFa year ago
DocScanner: 具有渐进式学习的鲁棒性文档图像矫正
DocScanner 是一个新颖的文件图像矫正框架，它维护了单个矫正图像的估计，并通过一种递归机制进行了逐步纠正。基于几何先验，还引入了一种几何规则化来进一步提高纠正质量，并在 Doc3D 数据集和 DocUNet 基准数据集上进行了广泛实
PDF3 years ago
KDD提高光学字符识别文本自然语言处理准确性的框架
本文介绍了一种有效的框架，使用实体识别作为示例，通过构建文档合成流水线，生成具有实际应用价值的有损数据并训练文本修复模型，从而解决 OCR 错误导致的实体识别精度下降问题。
PDF3 years ago