Aug, 2023

基于 Mask-RCNN 的孟加拉文档布局分析性能增强

TL;DR理解数字化文档就像解谜游戏,特别是历史文档。文档布局分析(DLA)通过将文档划分为段落、图像和表格等部分来解决这个谜题,这对机器读取和理解这些文档至关重要。本研究针对理解孟加拉语文档进行了工作,使用了一个名为 BaDLAD 的数据集,并使用了特殊的 Mask R-CNN 模型进行训练。通过逐步调整超参数,我们改进了模型,并取得了良好的 Dice 分数 0.889。然而,并非一切顺利,我们尝试使用对英文文档训练的模型,但它不适用于孟加拉语。这向我们展示了每种语言都有其自身的挑战。我们在 DL Sprint 2.0 方案的解决方案公开可用,链接位于 https URL,并附带笔记本、权重和推断笔记本。