公共文件信息提取基准中的信息冗余和偏差
本文提出了第一个模拟开放式信息抽取模型在真实世界中评估的基准测试,并在大规模测试中评测了几种常见 NLP 模型和常用的大语言模型,其中表现出色的模型也出现了最高 23.43 F1 得分的下降。
May, 2023
本文提出一个名为 VRDU 的用于评价文档中网络结构、多样的数据类型以及丰富的模板和布局等不同因素综合作用的数据集,并在此基础上设计实验模型,评估文档中结构化数据提取的性能。作者发现,此类任务中面对新模板挑战较大,而针对该问题,本文也提出了一种 few-shot learning 的方法。
Nov, 2022
RealKIE 是一个具有五个具有挑战性数据集的基准测试,旨在推进关键信息提取方法,重点关注企业应用。这些数据集包括一系列不同类型的文档,包括 SEC S1 文件,美国保密协议,英国慈善报告,FCC 发票和资源合同。除了介绍这些数据集外,我们还提供了详细的注释过程、文档处理技术和基准建模方法的描述,以促进开发能处理实际挑战并支持研究产业特定问题的信息提取技术的进一步研究。
Mar, 2024
这篇研究论文提出了一种名为 RDU 的新的基于区域预测的文档理解模型,可以从表格文本混合的形式文档中提取结构化信息,其方法融合了布局感知和计算机视觉模型,具有出色的实验结果。
Jun, 2022
本文研究信息提取的问题,使用大型预训练语言模型和图神经网络相结合的模型来高效地编码视觉和文本信息,并引入新的微调目标,通过使用大量未标记的领域内数据来改善领域内无监督微调。我们在真实世界的发票和简历数据集上进行了实验,并表明所提出的方法在发票上的绝对 F1 比强文本基线高出 6.3% ,在简历中 F1 绝对值增加了 4.7%。在少数样本情况下,我们的方法需要比基线少 30 倍的批注数据才能在约 90%的 F1 达到相同的性能水平。
May, 2020
本文提出了一种基于端到端文档分类和关键信息提取的表格自动处理方法,其中采用了文本和布局编码技术,利用余弦相似度度量来对视觉上相似的文档进行分类,进而使用混合整数规划来提取文档中的关键信息,实验表明本方法对于文档预处理等优化技术具有重要作用,并取得了令人满意的实验效果。
Jun, 2023
本文研究信息提取的问题,探讨了文档信息提取问题、数据集、基准测试等方面,提出了机器学习中的关键信息定位、提取和条目识别问题,并批评了目前缺乏半结构化商务文档的相关数据集和基准测试。
Jun, 2022
通过差分隐私、联邦学习和差分隐私联邦学习的大型预训练文档基础模型,我们介绍了开发私有键信息提取(KIE)系统的策略。通过在六个基准数据集上的广泛实验,我们证明了大型文档基础模型可以在私有环境下进行有效微调,以实现足够的性能并保持强大的隐私保证。最后,我们引入了一种名为 FeAm-DP 的新型 DP-FL 算法,它能够将全局差分隐私从独立环境有效地扩展到多客户联邦环境。总体而言,我们的研究为私有 KIE 系统的开发提供了宝贵的见解,并凸显了文档基础模型在隐私保护文档 AI 应用中的潜力。
Oct, 2023
提出了一种名为 GenKIE 的新型生成式端到端模型,利用多模态编码器嵌入视觉、版面布局和文本特征,并利用解码器生成所需的输出,从而解决了来自扫描文档的关键信息抽取任务。实验证明 GenKIE 能够有效泛化到不同类型的文档,并在 OCR 错误方面表现出鲁棒性,因此在实际场景中具有广泛的应用前景。
Oct, 2023
商业文档信息提取(BDIE)是将一大段非结构化信息(原始文本、扫描文档等)转换为下游系统可以解析和使用的结构化格式的问题。本文提出了一种名为 RASG 的检索增强结构化生成的新的 BDIE 框架,它在 BDIE 基准测试中实现了最先进的 KIE 任务和 LIR 任务的结果。
May, 2024