M3-VRD：多模态多任务多教师基于视觉丰富的表格文档理解

Feb, 2024

M3-VRD：多模态多任务多教师基于视觉丰富的表格文档理解

M3-VRD: Multimodal Multi-task Multi-teacher Visually-Rich Form Document Understanding

Yihao Ding, Lorenzo Vaiani, Caren Han, Jean Lee, Paolo Garza...

TL;DR本论文介绍一种划时代的多模态、多任务、多教师关节粒度知识蒸馏模型，用于视觉丰富型表单文件的理解。该模型旨在通过促进标记和实体表示之间微妙的相关性，从细粒度和粗粒度层面的洞察中获取 in design，从而解决表单文件中的复杂性问题。此外，我们引入了新的相互粒度损失函数和交叉粒度损失函数，以进一步优化多教师知识蒸馏的传递过程，呈现出分布差异和对表单文件的协调理解。通过全面评估公开可用的表单文件理解数据集，我们提出的模型始终优于现有基准线，在处理视觉复杂表单文件的复杂结构和内容方面展示其功效。

Abstract

This paper presents a groundbreaking multimodal, multi-task, multi-teacher joint-grained →

multimodal multi-task multi-teacher knowledge distillation form document understanding

发现论文，激发创造

FormNetV2：面向表单文件信息提取的多模态图形对比学习

FormNetV2 引入了一种集中的多模态图形对比学习策略，将自监督预训练统一为一个损失，通过提取与图形边缘相连的一对令牌之间的边界框内的图像特征，捕捉更有针对性的视觉线索，从而在 FUNSD、CORD、SROIE 和 Payment 基准测试上建立新的最先进性能。

May, 2023

Bi-VLDoc: 面向视觉丰富的文档理解的双向视觉 - 语言建模

本文提出了一种名为 Bi-VLDoc 的预训练模型，该模型通过双向视觉语言监督策略和视觉语言混合注意机制来完全探索和利用视觉和语言之间的交互作用，以学习具有更丰富语义的更强的跨模态文档表示，并在模型效果上显著优于现有模型，包括文档理解、文档分类和文档视觉问答等领域。

Jun, 2022

DocFormerv2: 文档理解的本地特征

提出了一种多模态 Transformer 模型 - DocFormerv2，应用于视觉文档理解领域，在多个数据集上都取得了最先进的结果，并通过大量消融实验证明了其预训练和无监督任务设计的有效性。

Jun, 2023

ERNIE-mmLayout: 多粒度多模态文档理解 Transformer

提出了一种多粒度多模态 Transformer 模型，并引入全局语义信息与视觉重要区域进行分类，实现了对自然语义单位相干性的搜索并通过比较实验证明了模型优越性。

Sep, 2022

StrucTexT: 多模态 Transformer 的结构化文本理解

本文提出一种名为 StrucTexT 的统一框架，该框架使用 transformer 构建了一个段 - 标记对齐的编码器来处理文档上下文中不同层面的实体标记和链接任务，并使用三个自监督任务设计了一种新颖的预训练策略，以有效地提取多模态信息，从而优于 FUNSD，SROIE 和 EPHOIE 数据集的现有方法。

Aug, 2021

PDF-MVQA：基于 PDF 的视觉问答多模信息检索数据集

针对长篇研究期刊文章等富有文本内容的视觉丰富文档，我们提出了 PDF-MVQA，旨在解决现有研究主要关注稀缺文本的现实世界文档的问题，而在理解多个页面之间的层次语义关系以定位多模态组件方面仍面临挑战。我们的贡献包括介绍了一个全面的 PDF 文档视觉问答数据集，用于研究文本主导文档中的语义层次布局结构。我们还提出了新的视觉丰富文档问答框架，同时考虑文档布局中的文本内容和关系，将页面级别理解扩展到整个多页文档。通过这项工作，我们旨在提高现有视觉和语言模型在处理视觉丰富文档视觉问答时的能力。

Apr, 2024

HRVDA：高分辨率视觉文档助手

利用大量的训练数据，本文提出了一种高分辨率可视文件助手（HRVDA），该模型利用内容过滤机制和指令过滤模块分别过滤不确定内容和指令的可视标记，从而在高分辨率图像的模型训练和推理方面取得高效的性能，同时在多个文档理解数据集上实现了最先进的性能。

Apr, 2024

D$^2$TV: 双重知识蒸馏和目标导向视觉建模，用于多对多多模态摘要

本文提出一个多对多多模态摘要（M$^3$S）任务，该任务旨在以任何语言为输入，生成任何语言摘要，并包括相应的图像序列，进一步提出了一种双重知识蒸馏和面向目标视觉建模的框架，以在 M$^3$S 任务中实现目标导向的视觉特征。最后还贡献了一个 M$^3$Sum 数据集。

May, 2023

VisualWordGrid: 多模态途径提取扫描文档信息

介绍了一种用于扫描文档表示的新方法，它可以同时编码文本、视觉和布局信息，以 3 轴张量形式用作分割模型的输入，并在考虑到视觉形式的基础上，提高了对小数据集的鲁棒性同时保持推理时间的速度，经过公共和私人文档图像数据集的测试，与最近的最先进方法相比，表现出更高的性能。

Oct, 2020

DocStruct：一种多模态方法，用于提取文档中的层次结构，以实现通用表单理解

本研究提出了一种基于多模态方法的表格理解框架，该框架可以有效地提取表格键值对，并应用于医疗表格和 FUNSD 等基准数据集上，实验证明方法的有效性。

Oct, 2020