DocFormer: 文档理解的端到端 Transformer

ICCVJun, 2021

DocFormer: 文档理解的端到端 Transformer

DocFormer: End-to-End Transformer for Document Understanding

Srikar Appalaraju, Bhavan Jasani, Bhargava Urala Kota, Yusheng Xie, R. Manmatha

TL;DR本文介绍了基于多模态变压器的 DocFormer 架构，它以无监督预训练方式运行，能够更好地理解各种格式和布局的文档，并结合了文本、视觉和空间特征，实现了多模态自注意层和共享学习空间嵌入等特点，使其在四个数据集上均取得了业界领先的结果。

Abstract

We present docformer -- a multi-modal transformer based architecture for the task of visual document understanding (VDU). VDU is a challen

visual document understanding docformer multi-modal transformer state-of-the-art results unsupervised pre-training

发现论文，激发创造

DocFormerv2: 文档理解的本地特征

提出了一种多模态 Transformer 模型 - DocFormerv2，应用于视觉文档理解领域，在多个数据集上都取得了最先进的结果，并通过大量消融实验证明了其预训练和无监督任务设计的有效性。

Jun, 2023

无 OCR 文档理解变压器

本文介绍了一种名为 “Donut” 的 OCR-free VDU 模型，使用 Transformer 作为简单有效的架构对文档图像进行全面理解，并采用交叉熵损失预训练，通过实验表明该模型在速度和准确性方面达到了各种 VDU 任务的最新表现。

Nov, 2021

TextFormer：一种基于查询的端对端混合监督文字定位器

TextFormer 提出了一种使用 Transformer 架构实现的查询式端到端文本定位算法，采用多任务建模的联合语义理解，并通过自适应全局聚合模块处理任意形状的文本，通过弱监督和全标注的语料库信息提升检测和端到端文本定位结果，实现了在双语数据集上的显著优势。

Jun, 2023

DLAFormer：文档布局分析的端到端 Transformer

本文介绍了一种名为 DLAFormer 的基于 Transformer 的文档布局分析方法，将各个子任务整合到一个模型中，利用统一的关系预测模块同时处理多个任务，并引入一组类型化查询来增强 DET 的内容查询的物理意义，采用粗细策略准确识别图形页对象。实验证明，DLAFormer 在两个文档布局分析基准数据集 DocLayNet 和 Comp-HRDoc 上胜过先前采用多分支或多阶段架构的方法。

May, 2024

TransferDoc: 一种自监督可转移的文档表示学习模型，统一视觉和语言

TransferDoc 是跨模态 transformer 架构，通过在自我监督学习中使用三个新颖的预训练目标，实现更丰富的语义概念的学习，从而在工业评估场景中胜过其他最先进的方法。

Sep, 2023

大规模无噪声预训练下的文档实体检索

本文提出了一种从网络上收集海量、嘈杂、弱标注数据的方法，以弥补许多 VDER 设置中训练数据不足的缺陷，也给出了一个名为 DocuNet 的收集数据集，它不需要依赖特定文档类型或实体集，从而在各种 VDER 任务中通用应用。借助 DocuNet，我们提出了一种轻量级多模态体系结构 UniFormer，在没有额外的视觉相关性的情况下从文本、布局和图像裁剪中学习统一的表征。在不同的设置中实验我们的方法并展示了在传统实体检索和少样本学习设置中，当将这个大规模数据集与 UniFormer 相结合时的改进。

Jun, 2023

UNetFormer: 用于三维医学图像分割的统一视觉 Transformer 模型和预训练框架

本文提出了一个统一的框架，它由两个体系结构组成，称为 UNetFormer，具有基于 3D Swin 变压器的编码器和卷积神经网络和变压器的解码器。该架构的设计允许在准确性和计算成本之间满足宽范围的权衡要求。使用 CT 图像进行自我监督预训练，使用 Medical Segmentation Decathlon（MSD）数据集进行肝和肝肿瘤分割任务的 Fine-tune 和测试，并使用 MRI 图像的 BraTS 21 数据集进行脑肿瘤分割，并在 Dice 评分方面优于其他方法。

Apr, 2022

文档理解的统一预训练框架

UDoc 是一个新的文档理解的统一预训练框架，它通过使用三个自监督损失约束表示模型，将单词和视觉特征作为输入，使神经网络从无标签的数据中学习到更好的文档表示，并取得了下游任务的提升。

Apr, 2022

DocBinFormer：一种用于有效文档图像二值化的两级 Transformer 网络

提出了一种名为 DocBinFormer（文档二值化变换器）的基于视觉变换器的两级架构，用于有效地对文档图像进行二值化分析，该架构利用双级变换器编码器从输入图像中有效地捕获全局和局部特征表示，从而在系统生成和手写文档图像的分析中取得了改进的结果，并在 DIBCO 和 H-DIBCO 基准数据集上超过了现有技术的表现。

Dec, 2023

M3-VRD：多模态多任务多教师基于视觉丰富的表格文档理解

本论文介绍一种划时代的多模态、多任务、多教师关节粒度知识蒸馏模型，用于视觉丰富型表单文件的理解。该模型旨在通过促进标记和实体表示之间微妙的相关性，从细粒度和粗粒度层面的洞察中获取 in design，从而解决表单文件中的复杂性问题。此外，我们引入了新的相互粒度损失函数和交叉粒度损失函数，以进一步优化多教师知识蒸馏的传递过程，呈现出分布差异和对表单文件的协调理解。通过全面评估公开可用的表单文件理解数据集，我们提出的模型始终优于现有基准线，在处理视觉复杂表单文件的复杂结构和内容方面展示其功效。

Feb, 2024