关注关键部分：选择性区域集中下的视觉文档理解

ICCVSep, 2023

关注关键部分：选择性区域集中下的视觉文档理解

Attention Where It Matters: Rethinking Visual Document Understanding with Selective Region Concentration

Haoyu Cao, Changcun Bao, Chaohu Liu, Huang Chen, Kun Yin...

TL;DR我们提出了一种新颖的端到端文档理解模型，称为 SeRum（选择性区域理解模型），用于从文档图像中提取有意义的信息，包括文档分析、检索和办公自动化。

Abstract

We propose a novel end-to-end document understanding model called serum (SElective Region Understanding Model) for extracting meaningful information from document images, including →

end-to-end document understanding serum document analysis retrieval office automation

发现论文，激发创造

高效端到端视觉文档理解与根据聚类

通过小型的预训练图像到文本模型，我们在像素级视觉语言理解的端到端模型中学习选择性文本或布局识别和推理，取得了在信息图表、扫描文档和图像三个视觉文档理解基准中的一致性改进，超过直接预测答案的相似 Pix2Struct 模型 4% 以上。

Nov, 2023

UReader：基于多模态大型语言模型的通用无 OCR 视觉智能语言理解

通过利用 Multimodal Large Language Model (MLLM) 的浅层文本识别能力，我们在较低的训练成本下，通过在广泛的视觉语境理解任务上联合微调，设计了 UReader 模型，实现了 OCR-free 模式下在 8 个视觉语境理解任务上的最新表现。

Oct, 2023

多模态查询的端到端知识检索

本文介绍了一个新的数据集 ReMuQ，针对跨媒体检索的任务，提出了一个直接处理文本和图像输入的 Retriever 模型 `ReViz`，并引入了一个新的预训练任务，实现了对多模态查询的知识检索，并在两个数据集上取得了优秀的检索效果。

Jun, 2023

面向高效简历理解的多粒度多模态预训练方法

本文提出了一种名为 ERU 的新型模型，通过引入多模态融合变压器编码简历段落的布局感知信息，设计三个自监督任务用于无标签简历的预训练，并通过多粒度序列标记任务对模型进行微调，从简历中提取结构化信息，实验证明 ERU 的有效性。

Apr, 2024

基于统一模态屏蔽的序列到序列预训练用于视觉文档理解

本文提出 GenDoc，这是一个使用序列到序列模型进行预训练的通用文档理解模型，该模型采用编码器 - 解码器架构，可适应多种输出格式的下游任务，通过包括掩码图像令牌预测和掩码布局预测在内的多个任务进行预训练，采用分离的注意力和模态专家策略来有效地捕获每种模态利用的信息，实验结果显示，与最先进的方法相比，该模型具有更强的鲁棒性。

May, 2023

模型是否理解文档？针对文档级关系抽取进行语言理解模型基准测试

本文研究了文档级别关系抽取中模型对关系预测的决策规则，从注释、实验等多个角度评估了当前 SOTA 模型和人类在关系抽取方面的差异，并提出了平均精度均值（MAP）作为综合评估指标，结果提示未来关系抽取模型的评估应考虑性能和理解能力两个方面。

Jun, 2023

M3-VRD：多模态多任务多教师基于视觉丰富的表格文档理解

本论文介绍一种划时代的多模态、多任务、多教师关节粒度知识蒸馏模型，用于视觉丰富型表单文件的理解。该模型旨在通过促进标记和实体表示之间微妙的相关性，从细粒度和粗粒度层面的洞察中获取 in design，从而解决表单文件中的复杂性问题。此外，我们引入了新的相互粒度损失函数和交叉粒度损失函数，以进一步优化多教师知识蒸馏的传递过程，呈现出分布差异和对表单文件的协调理解。通过全面评估公开可用的表单文件理解数据集，我们提出的模型始终优于现有基准线，在处理视觉复杂表单文件的复杂结构和内容方面展示其功效。

Feb, 2024

ERNIE-mmLayout: 多粒度多模态文档理解 Transformer

提出了一种多粒度多模态 Transformer 模型，并引入全局语义信息与视觉重要区域进行分类，实现了对自然语义单位相干性的搜索并通过比较实验证明了模型优越性。

Sep, 2022

MGDoc: 多粒度分层预训练用于文档图像理解

我们提出了一个名为 MGDoc 的新的多模态、多粒度预训练框架，通过使用统一的文本 - 视觉编码器来获得不同粒度的多模态特征，以便把多个粒度的特征投影到相同的超空间中，并设计了跨粒度的注意机制和特定的预训练任务来建模区域和单词之间的关系，并展示该模型能够学习到更好的特征，在下游任务中表现出色。

Nov, 2022

LayoutLLM：针对视觉丰富文档理解的大语言模型指令调整

本文提出了 LayoutLLM，一种更灵活的文档分析方法，用于理解图像化文档。通过利用现有研究在文档图像理解和大规模语言模型的优势，通过与多模态指令数据集进行微调，提出的模型在单个模型中执行对文档图像的理解，并通过实验证明在各种文档分析任务中改进了基线模型。

Mar, 2024