DocLayNet: 一个用于文档布局分析的大型人工注释数据集

KDDJun, 2022

DocLayNet: 一个用于文档布局分析的大型人工注释数据集

DocLayNet: A Large Human-Annotated Dataset for Document-Layout Analysis

Birgit Pfitzmann, Christoph Auer, Michele Dolfi, Ahmed S Nassar, Peter W J Staar

TL;DR本文提出了一个新的文档布局注释数据集 DocLayNet，用于针对多样性布局的训练和测试，证明在丰富的文档数据场景下，DocLayNet 训练的模型比 PubLayNet 和 DocBank 训练的模型更具鲁棒性，是进行通用文档布局分析的首选。

Abstract

Accurate document layout analysis is a key requirement for high-quality PDF document conversion. With the recent availability of public, large ground-truth datasets such as PubLayNet and DocBank, deep-learning models

document layout analysis deep-learning models doclaynet dataset pdf document conversion layout segmentation

发现论文，激发创造

自我监督和少样本学习在稳健生物气溶胶监测中的应用

实时生物气溶胶监测利用自监督学习和少样本学习，通过大量未标记数据和很少的样本来分类全息图像，从而优化监测工作流程并减少模型适应不同情况所需的努力。

Jun, 2024

DistilDoc: 视觉内容丰富文档应用的知识蒸馏

针对视觉丰富的文档应用（如文档布局分析和文档图像分类），本文探讨了知识蒸馏（KD）。通过设计一种 KD 实验方法，我们研究了不同架构和容量的骨干模型之间的知识传递策略对教师 - 学生知识差距的影响，并发现一些方法可以始终优于监督学生训练。此外，我们设计了下游任务设置，评估了蒸馏的布局分析模型在零样本布局感知文档视觉问答上的鲁棒性，结果表明存在较大的知识差距，强调进一步探索如何高效获得更多的语义文档布局意识的必要性。

Jun, 2024

无监督文档布局分析

通过基于视觉的方法，本研究利用未标记的网络文档图像生成简单的对象掩码，通过无监督训练迭代持续改进该模型的性能，从而显著提高文档布局分析的准确性和效率。

Jun, 2024

MpoxSLDNet：一种新型 CNN 模型用于检测猴痘病变及与预训练模型性能比较

介绍了一个名为 MpoxSLDNet（Monkeypox Skin Lesion Detector Network）的卷积神经网络模型，用于早期检测和分类数字图像中的天花病毒皮损和非天花病毒皮损，并相比传统预训练模型如 VGG16、ResNet50 和 DenseNet121 在性能指标上提供了卓越的表现，同时对存储空间的需求也显著减少，从而在资源受限的医疗环境中提出了实用的解决方案。

May, 2024

DLAFormer：文档布局分析的端到端 Transformer

本文介绍了一种名为 DLAFormer 的基于 Transformer 的文档布局分析方法，将各个子任务整合到一个模型中，利用统一的关系预测模块同时处理多个任务，并引入一组类型化查询来增强 DET 的内容查询的物理意义，采用粗细策略准确识别图形页对象。实验证明，DLAFormer 在两个文档布局分析基准数据集 DocLayNet 和 Comp-HRDoc 上胜过先前采用多分支或多阶段架构的方法。

May, 2024

BraTS-Path 挑战赛：评估非均质组织病理性脑肿瘤亚区

BrATs-Path 挑战的主要目标是为开发和公平比较能够识别具有不同组织学特征的肿瘤亚区的深度学习模型提供系统准备的完整数据集和基准环境，以进一步了解该疾病并以一致的方式协助诊断和分级。

May, 2024

DeepDamageNet: 使用卫星图像的多灾害建筑损坏分割和分类的两步深度学习模型

通过深度学习模型，在 xView2 挑战中取得了 0.66 的 F1 分数，超过 0.28 的挑战基准分数，发现不同损伤等级和不同灾害类型之间的视觉相似性和损害分布差异导致建筑物损伤分类是一项困难任务，可能需要具备关于灾害损害的概率先验估计，以获得准确的预测。

May, 2024

克服神经网络深度学习模型在胶质母细胞瘤翻译中的挑战：ZGBM 联盟

报告了常规治疗中的脑胶质母细胞瘤患者的影像协议和调度的差异，以展示在脑胶质母细胞瘤治疗路径中整合深度学习模型的挑战。此外，还分析了最常见的影像研究和图像对比，以便为开发可能稳健的深度学习模型提供信息。

May, 2024

通过图像量化线虫：深度学习的数据集、模型和基准

对植物寄生线虫检测的深度学习模型进行研究和分类，提供了潜在的最先进的物体检测模型、训练技术、优化技术和评估指标，为初学者提供了一个基线，用于植物寄生线虫检测。

Apr, 2024

文档图像中的文档布局分析的混合方法

这篇论文探讨了文档布局分析，使用先进的基于 Transformer 的对象检测网络作为创新的图形页面对象检测器，以识别表格、图形和展示元素。通过引入查询编码机制，提供高质量的对象查询进行对比学习，增强了解码器阶段的效率。同时，本方法采用混合匹配方案，在训练阶段将解码器的一对一匹配策略与一对多匹配策略相结合，旨在提高模型在页面上检测各种图形元素的准确性和通用性。实验结果表明，该方法在 PubLayNet、DocLayNet 和 PubTables 等基准测试上的表现超过了现有的最先进方法，PubLayNet 的平均精度为 97.3%，DocLayNet 的精度为 81.6%，PubTables 的精度为 98.6%，证明了其在布局分析方面的优越性能。这些进步不仅提高了将文档图片转换为可编辑和可访问格式的能力，还简化了信息检索和数据提取过程。

Apr, 2024