DocLayNet: 一个用于文档布局分析的大型人工注释数据集
实时生物气溶胶监测利用自监督学习和少样本学习,通过大量未标记数据和很少的样本来分类全息图像,从而优化监测工作流程并减少模型适应不同情况所需的努力。
Jun, 2024
针对视觉丰富的文档应用(如文档布局分析和文档图像分类),本文探讨了知识蒸馏(KD)。通过设计一种 KD 实验方法,我们研究了不同架构和容量的骨干模型之间的知识传递策略对教师 - 学生知识差距的影响,并发现一些方法可以始终优于监督学生训练。此外,我们设计了下游任务设置,评估了蒸馏的布局分析模型在零样本布局感知文档视觉问答上的鲁棒性,结果表明存在较大的知识差距,强调进一步探索如何高效获得更多的语义文档布局意识的必要性。
Jun, 2024
介绍了一个名为 MpoxSLDNet(Monkeypox Skin Lesion Detector Network)的卷积神经网络模型,用于早期检测和分类数字图像中的天花病毒皮损和非天花病毒皮损,并相比传统预训练模型如 VGG16、ResNet50 和 DenseNet121 在性能指标上提供了卓越的表现,同时对存储空间的需求也显著减少,从而在资源受限的医疗环境中提出了实用的解决方案。
May, 2024
本文介绍了一种名为 DLAFormer 的基于 Transformer 的文档布局分析方法,将各个子任务整合到一个模型中,利用统一的关系预测模块同时处理多个任务,并引入一组类型化查询来增强 DET 的内容查询的物理意义,采用粗细策略准确识别图形页对象。实验证明,DLAFormer 在两个文档布局分析基准数据集 DocLayNet 和 Comp-HRDoc 上胜过先前采用多分支或多阶段架构的方法。
May, 2024
BrATs-Path 挑战的主要目标是为开发和公平比较能够识别具有不同组织学特征的肿瘤亚区的深度学习模型提供系统准备的完整数据集和基准环境,以进一步了解该疾病并以一致的方式协助诊断和分级。
May, 2024
通过深度学习模型,在 xView2 挑战中取得了 0.66 的 F1 分数,超过 0.28 的挑战基准分数,发现不同损伤等级和不同灾害类型之间的视觉相似性和损害分布差异导致建筑物损伤分类是一项困难任务,可能需要具备关于灾害损害的概率先验估计,以获得准确的预测。
May, 2024
报告了常规治疗中的脑胶质母细胞瘤患者的影像协议和调度的差异,以展示在脑胶质母细胞瘤治疗路径中整合深度学习模型的挑战。此外,还分析了最常见的影像研究和图像对比,以便为开发可能稳健的深度学习模型提供信息。
May, 2024
对植物寄生线虫检测的深度学习模型进行研究和分类,提供了潜在的最先进的物体检测模型、训练技术、优化技术和评估指标,为初学者提供了一个基线,用于植物寄生线虫检测。
Apr, 2024
这篇论文探讨了文档布局分析,使用先进的基于 Transformer 的对象检测网络作为创新的图形页面对象检测器,以识别表格、图形和展示元素。通过引入查询编码机制,提供高质量的对象查询进行对比学习,增强了解码器阶段的效率。同时,本方法采用混合匹配方案,在训练阶段将解码器的一对一匹配策略与一对多匹配策略相结合,旨在提高模型在页面上检测各种图形元素的准确性和通用性。实验结果表明,该方法在 PubLayNet、DocLayNet 和 PubTables 等基准测试上的表现超过了现有的最先进方法,PubLayNet 的平均精度为 97.3%,DocLayNet 的精度为 81.6%,PubTables 的精度为 98.6%,证明了其在布局分析方面的优越性能。这些进步不仅提高了将文档图片转换为可编辑和可访问格式的能力,还简化了信息检索和数据提取过程。
Apr, 2024