视觉丰富文档评估的文档智能度量

May, 2022

视觉丰富文档评估的文档智能度量

Document Intelligence Metrics for Visually Rich Document Evaluation

Jonathan DeGange, Swapnil Gupta, Zhuoyu Han, Krzysztof Wilkosz, Adam Karwan

TL;DR介绍了一款名为 DI-Metrics 的 Python 库，其中包括了基于文本、几何和层次结构指标的用于评估 Visually-Rich Documents 信息提取模型表现的指标，并使用 CORD 数据集比较了三种 SOTA 模型和一种工业模型的性能。该开源库已在 GitHub 上发布。

Abstract

The processing of visually-rich documents (VRDs) is highly important in information extraction tasks associated with Document Intelligence. We introduce →

visually-rich documents di-metrics python information extraction model evaluation

发现论文，激发创造

从复杂文档中提取结构化信息的基准测试

本文提出一个名为 VRDU 的用于评价文档中网络结构、多样的数据类型以及丰富的模板和布局等不同因素综合作用的数据集，并在此基础上设计实验模型，评估文档中结构化数据提取的性能。作者发现，此类任务中面对新模板挑战较大，而针对该问题，本文也提出了一种 few-shot learning 的方法。

Nov, 2022

DocTrack: 一个与人眼运动真正对齐的视觉丰富的文档数据集，用于机器阅读

使用者眼动追踪技术对齐的 VRD 数据集，研究人类阅读顺序对文档理解任务的影响，结果显示虽然文档 AI 模型取得了显著进展，但在与人类相比准确、连续和灵活地阅读 VRD 方面仍有很长的路要走，对未来的文档 AI 模型研究和开发具有潜在的影响。

Oct, 2023

具有布局感知能力的基于预训练语言模型的视觉丰富文档信息抽取方法

本文研究信息提取的问题，使用大型预训练语言模型和图神经网络相结合的模型来高效地编码视觉和文本信息，并引入新的微调目标，通过使用大量未标记的领域内数据来改善领域内无监督微调。我们在真实世界的发票和简历数据集上进行了实验，并表明所提出的方法在发票上的绝对 F1 比强文本基线高出 6.3％，在简历中 F1 绝对值增加了 4.7％。在少数样本情况下，我们的方法需要比基线少 30 倍的批注数据才能在约 90％的 F1 达到相同的性能水平。

May, 2020

从视觉丰富文档中提取多模态信息的图卷积

本文提出了一种基于图卷积的模型来将文本和视觉信息相结合以实现对视觉丰富的文档中实体抽取的方法，并通过实验证明了所提出的模型在两个真实数据集上的性能远优于 BiLSTM-CRF 模型。

Mar, 2019

RoViST：学习视觉叙事的鲁棒度量

本文提出了三种评估指标集，分别是视觉定位，连贯性和非冗余性，以便更好地评估生成故事的机器模型。通过分析添加的评估指标集与人类判断分数之间的相关性，我们表明我们的度量衡比其他衡量标准更好。这种度量衡可以作为一种基于学习的评估指标，是现有基于规则的指标的补充。

May, 2022

基于布局的文档驱动对话信息提取：数据集、方法和演示

该研究构建了基于文档的对话系统，旨在从视觉丰富的文档（VRD）中提取结构和语义知识，以生成准确的回复，为此创建了一个布局感知的文档级信息提取数据集 LIE，并开发了基准方法考虑人类的布局特征，实验结果表明布局对基于 VRD 的提取至关重要，系统演示也验证了提取的知识能够帮助用户找到关心的答案。LIE 包含来自产品和官方文档中 4,061 页的 62k 注释，成为我们所知最大的基于 VRD 的信息提取数据集。

Jul, 2022

手写文件中信息提取的读取顺序无关度量

手写文件中的信息提取过程往往依赖于获得自动转录并对该转录执行命名实体识别（NER）；出于这个原因，在公开可用的数据集中，系统的性能通常使用适用于每个数据集的特定指标进行评估。而且，大多数使用的指标对阅读顺序错误非常敏感，因此不能反映系统的预期最终应用，并且在更复杂的文件中引入了偏见。在本文中，我们提出并公开发布了一套针对手写文件中信息提取评估的与阅读顺序无关的度量标准。在实验中，我们对度量标准的行为进行了深入分析，并推荐了我们认为的正确评估任务所需的最小度量标准。

Apr, 2024

迈向类人机理解：在视觉丰富文档中的少样关系学习

通过引入两个新的少样本基准数据集，本研究针对可视化丰富的文档（VRD）中的键 - 值关系三元组的提取，提出了一种变分方法，其中包含关系 2D 空间先验知识和原型化校正技术，实验结果表明该方法的有效性，并为实际应用开辟了新的可能性。

Mar, 2024

基于 LayoutLMv3 的增强关系抽取模型在视觉丰富文档中的应用

通过对 FUNSD 和 CORD 数据集上进行的广泛剖析研究及对 LayoutLMv3 的初始化，我们提出了一个模型，用于在视觉丰富的文档中进行关系抽取，其结果超过了当前行业的最佳效果，且没有特定的预训练任务和较少的参数。

Apr, 2024

在信息丰富的文档中以依赖解析的方式提取实体关系

本文使用 biaffine 解析模型，通过布局信息提取视觉信息中的实体关系，成功运用于生产环境。

Oct, 2021