Aug, 2023

bbOCR:一个用于孟加拉文档的开源多领域 OCR 处理流程

TL;DR本文介绍了 Bengali.AI-BRACU-OCR(bbOCR):一种开源可扩展的文档光学字符识别系统,可将孟加拉语文档重构为结构化的可搜索的数字化格式,并提出了一种新颖的孟加拉语文本识别模型和两个合成数据集。全面的组件级和系统级评估结果表明,我们提出的解决方案优于当前最先进的孟加拉语 OCR 系统。