稳健的孟加拉文档布局分割无锚模型集合

Aug, 2023

稳健的孟加拉文档布局分割无锚模型集合

Ensemble of Anchor-Free Models for Robust Bangla Document Layout Segmentation

U Mong Sain Chak, Md. Asib Rahman

TL;DR我们通过利用 YOLOv8 模型的集合，为 Bangla 文档分割的任务设计了一个创新系统。通过图像增强、模型架构和模型集成等技术的应用，我们降低了文档图像的质量来提高模型训练的鲁棒性，并成功展示了将无锚点模型融合以实现 Bangla 文档的稳健布局分割。

Abstract

In this research paper, we present an innovative system designed for the purpose of segmenting the layout of bangla documents. Our methodology involves utilizing a sophisticated collection of yolov8 models, metic

bangla documents layout segmentation yolov8 models dl sprint 2.0 model ensembles

发现论文，激发创造

基于后处理的孟加拉文档布局分析与 YOLOV8

利用 YOLOv8 模型和创新的后处理技术，本文着重于增强孟加拉文档布局分析（DLA），通过采用数据增强方法解决复杂孟加拉文字符的独特挑战，并通过细致的验证集评估和基于完整数据集的微调来实现准确的元素分割。我们的组合模型结合后处理优于单个基本架构，解决了 BaDLAD 数据集中发现的问题。通过利用这种方法，我们旨在推进孟加拉文档分析，从而提高 OCR 和文档理解，BaDLAD 成为这一努力的基础资源，有助于未来的研究。此外，我们的实验为将新策略纳入已经建立的解决方案提供了关键见解。

Sep, 2023

论孟加拉文档布局分析数据集中的框架和模型分析：BaDLAD

本研究通过使用先进的计算机程序 (Detectron2、YOLOv8 和 SAM) 来理解孟加拉文档布局。我们研究了许多不同的孟加拉文档。Detectron2 非常擅长找到和分离文本框和段落等文档的不同部分。YOLOv8 在识别表格和图片方面表现良好。我们还尝试了 SAM，它帮助我们理解棘手的布局。通过比较它们的准确性和速度，我们了解到它们在不同类型的文档中的适用性。我们的研究有助于理解孟加拉文档中的复杂布局，也可以对其他语言有所帮助。

Aug, 2023

基于 Mask-RCNN 的孟加拉文档布局分析性能增强

理解数字化文档就像解谜游戏，特别是历史文档。文档布局分析（DLA）通过将文档划分为段落、图像和表格等部分来解决这个谜题，这对机器读取和理解这些文档至关重要。本研究针对理解孟加拉语文档进行了工作，使用了一个名为 BaDLAD 的数据集，并使用了特殊的 Mask R-CNN 模型进行训练。通过逐步调整超参数，我们改进了模型，并取得了良好的 Dice 分数 0.889。然而，并非一切顺利，我们尝试使用对英文文档训练的模型，但它不适用于孟加拉语。这向我们展示了每种语言都有其自身的挑战。我们在 DL Sprint 2.0 方案的解决方案公开可用，链接位于 https URL，并附带笔记本、权重和推断笔记本。

Aug, 2023

Detectron2 上的孟加拉文档布局分析

我们通过使用 Detectron2 库中的先进 Mask R-CNN 模型改进了 Bengali 文档的 DLA 模型的准确性，评估了三种变体，结果表明这些模型在准确分割 Bengali 文档方面非常有效，同时我们强调了预训练权重的重要性，拓展了 Mask R-CNN 在文档布局分析、高效文档管理和 OCR 研究中的适用性，并提出了未来微调和数据增强的发展方向。

Aug, 2023

WeLayout：面向 ICDAR 2023 企业文档鲁棒版面分割竞赛的微信版面分析系统

本文介绍了 WeLayout 的设计和实现，该系统利用 DINO 和 YOLO 模型进行了 ICDAR2023 比赛上对齐的版面分割。使用数据增强、模型架构、边界框细化、模型集成以及贝叶斯优化算法等技术，我们取得了优异的表现，mAP 分数达到了 70.0，并展示了对查询驱动和无锚定模型相结合的优势，以实现企业文档中的鲁棒的版面分割。

May, 2023

专用模型和高级技术提升孟加拉光学字符识别在多样文档类型中的应用

该研究提出了一种具有特殊能力的孟加拉语 OCR 系统，该系统在保留结构、对齐和图像的同时，在重建文档布局方面表现出色。它采用先进的图像和签名检测进行准确提取，并为文字分割提供了专门模型以适应多样化的文档类型，包括计算机排版、凸版印刷、打字机和手写文档。该系统处理静态和动态手写输入，识别各种写作风格。此外，它还能识别孟加拉语中的复合字符。广泛的数据收集工作提供了多样化的语料库，而高级技术组件优化了字符和单词识别。额外的贡献包括图像、标志、签名和表格识别，透视校正，布局重建以及用于高效和可扩展处理的排队模块。该系统在高效准确的文本提取和分析方面表现出色。

Feb, 2024

BN-DRISHTI：通过手写文本实例级分割实现孟加拉文档识别

本文介绍了一个新的深度学习方法 (BN-DRISHTI)，它结合了基于 YOLO 的物体检测框架、Hough 变换和仿射变换来解决孟加拉语手写体识别的线条和单词分割问题，同时还提供了一个包含 786 张手写孟加拉语文档图像的扩展数据集 (BN-HTRd) 以及相应的线条和单词级别注释，用于单词识别的地面实况。该方法的在测试部分上得到了非常高的线条 (99.97%) 和单词 (98%) 分割 F 分数，表现优于外部三个孟加拉手写数据集。

May, 2023

使用 YOLOv5 布局检测揭示文档结构

本研究使用 YOLOv5 模型来快速识别文档布局并提取非结构化数据，为解决处理非结构化数据的问题建立了概念框架并展示了其显著的性能，从而提高了数据提取的效率。

Sep, 2023

孟加拉文本文档的非监督式抽象摘要

该论文提出了一种基于图的无监督生成式摘要系统，用于低资源语言 Bengali 的单篇文档，只需要使用 POS 标注器和在 Bengali 文本上进行预训练的语言模型，该系统表现比多个聚焦摘要系统更好，并提供了人工注释的数据集以支持未来的研究。

Jan, 2021

TEAM-Atreides 参加 SemEval-2022 任务 11：利用数据增强和集成技术识别孟加拉语的复杂命名实体

本文介绍了我们在 SemEval 2022 Task 11 中研究的复杂命名实体识别问题的研究，使用了多种基于 ELECTRA 的模型以实现优秀的性能，同时讨论了一些技术方面的决策和实验结果。

Apr, 2022