视觉丰富文档评估的文档智能度量
本文提出一个名为 VRDU 的用于评价文档中网络结构、多样的数据类型以及丰富的模板和布局等不同因素综合作用的数据集,并在此基础上设计实验模型,评估文档中结构化数据提取的性能。作者发现,此类任务中面对新模板挑战较大,而针对该问题,本文也提出了一种 few-shot learning 的方法。
Nov, 2022
使用者眼动追踪技术对齐的 VRD 数据集,研究人类阅读顺序对文档理解任务的影响,结果显示虽然文档 AI 模型取得了显著进展,但在与人类相比准确、连续和灵活地阅读 VRD 方面仍有很长的路要走,对未来的文档 AI 模型研究和开发具有潜在的影响。
Oct, 2023
本文研究信息提取的问题,使用大型预训练语言模型和图神经网络相结合的模型来高效地编码视觉和文本信息,并引入新的微调目标,通过使用大量未标记的领域内数据来改善领域内无监督微调。我们在真实世界的发票和简历数据集上进行了实验,并表明所提出的方法在发票上的绝对 F1 比强文本基线高出 6.3% ,在简历中 F1 绝对值增加了 4.7%。在少数样本情况下,我们的方法需要比基线少 30 倍的批注数据才能在约 90%的 F1 达到相同的性能水平。
May, 2020
本文提出了一种基于图卷积的模型来将文本和视觉信息相结合以实现对视觉丰富的文档中实体抽取的方法,并通过实验证明了所提出的模型在两个真实数据集上的性能远优于 BiLSTM-CRF 模型。
Mar, 2019
本文提出了三种评估指标集,分别是视觉定位,连贯性和非冗余性,以便更好地评估生成故事的机器模型。通过分析添加的评估指标集与人类判断分数之间的相关性,我们表明我们的度量衡比其他衡量标准更好。这种度量衡可以作为一种基于学习的评估指标,是现有基于规则的指标的补充。
May, 2022
该研究构建了基于文档的对话系统,旨在从视觉丰富的文档(VRD)中提取结构和语义知识,以生成准确的回复,为此创建了一个布局感知的文档级信息提取数据集 LIE,并开发了基准方法考虑人类的布局特征,实验结果表明布局对基于 VRD 的提取至关重要,系统演示也验证了提取的知识能够帮助用户找到关心的答案。LIE 包含来自产品和官方文档中 4,061 页的 62k 注释,成为我们所知最大的基于 VRD 的信息提取数据集。
Jul, 2022
手写文件中的信息提取过程往往依赖于获得自动转录并对该转录执行命名实体识别(NER);出于这个原因,在公开可用的数据集中,系统的性能通常使用适用于每个数据集的特定指标进行评估。而且,大多数使用的指标对阅读顺序错误非常敏感,因此不能反映系统的预期最终应用,并且在更复杂的文件中引入了偏见。在本文中,我们提出并公开发布了一套针对手写文件中信息提取评估的与阅读顺序无关的度量标准。在实验中,我们对度量标准的行为进行了深入分析,并推荐了我们认为的正确评估任务所需的最小度量标准。
Apr, 2024
通过引入两个新的少样本基准数据集,本研究针对可视化丰富的文档(VRD)中的键 - 值关系三元组的提取,提出了一种变分方法,其中包含关系 2D 空间先验知识和原型化校正技术,实验结果表明该方法的有效性,并为实际应用开辟了新的可能性。
Mar, 2024
通过对 FUNSD 和 CORD 数据集上进行的广泛剖析研究及对 LayoutLMv3 的初始化,我们提出了一个模型,用于在视觉丰富的文档中进行关系抽取,其结果超过了当前行业的最佳效果,且没有特定的预训练任务和较少的参数。
Apr, 2024