基于数据效率的形式文档信息提取

KDDJan, 2022

基于数据效率的形式文档信息提取

Data-Efficient Information Extraction from Form-Like Documents

Beliz Gunel, Navneet Potti, Sandeep Tata, James B. Wendt, Marc Najork...

TL;DR本文介绍了如何使用少量标记数据和被标记语料库进行转移学习，以实现在规模上自动从表单状文件提取信息。

Abstract

automating information extraction from form-like documents at scale is a pressing need due to its potential impact on automating business workflows across many industries like financial services, insurance, and h

automating information extraction form-like documents transfer learning data-efficiency multi-domain

发现论文，激发创造

有限数据下的信息提取迁移学习

本文提出了一种通过使用转移学习的方法，并结合深度神经网络和统计分类器的结合来进行信息提取，将该方法应用于日本政府工程竞标实际案例的文档处理中，证明了该模型能够提取具有详细信息精度的细粒度命名实体。

Mar, 2020

信息提取：在发展中国家超本地金融数据领域的应用

本研究使用自然语言处理技术，旨在解决获取发展中国家公司财务数据的问题。通过构建专门针对发展中国家金融文本数据的数据集，我们采用基于 Transformer 的 T5 模型进行文本到文本的处理，同时进行命名实体识别和关系提取，达到 92.44% 的准确率、68.25% 的精确度和 54.20% 的召回率。同时，我们还使用 SpaCy 进行序列处理，包括预训练和微调模型的命名实体识别以及使用 SpaCy 的依赖解析器输出和一些启发式方法来确定实体关系，最终实现了 84.72% 的准确率、6.06% 的精确度和 5.57% 的召回率。

Mar, 2024

基于视觉丰富的文档提取模型数据标注成本的显著降低

提出使用选择性标注结合主动学习的方法，以简化对可预测提取的样本进行标注的成本，实验证明相比全额标注，该方法可将成本降低 10 倍同时精度不受影响，并且适用于不同领域的文档。

Oct, 2022

领域和通用文件中的信息提取：启发式和数据驱动方法的研究结果

本项研究探讨了信息抽取中文档体类别和长度对常用方法的影响，特别是对具有文本挖掘任务价值的命名实体识别和语义角色标注有着重要的启示。

Jun, 2023

针对文本文档的高精度信息提取的人机协作优化

本文研究信息提取方法，提出利用人工验证的弱监督标记方法，结合人工与计算机快速处理，以实现在精度要求高的情境下避免纯手工提取耗时过长的难题，并在犯罪司法数据集上实证其优越性。

Feb, 2023

非法领域中的信息提取

本论文提出了一种轻量级的特征无关的信息提取（IE）范例，可以处理语言模式不规范、长尾概念漂移等问题，特别适用于人口贩卖等非法领域；经验证明，在低监督和高监督设置下，该范例可以比传统的基于特征的条件随机场提升 18％以上的 F - 度量，并且能够漂移概念稳定性高。

Mar, 2017

使用任务优化实现端到端文档分类和关键信息提取

本文提出了一种基于端到端文档分类和关键信息提取的表格自动处理方法，其中采用了文本和布局编码技术，利用余弦相似度度量来对视觉上相似的文档进行分类，进而使用混合整数规划来提取文档中的关键信息，实验表明本方法对于文档预处理等优化技术具有重要作用，并取得了令人满意的实验效果。

Jun, 2023

商业文件信息提取：朝着实用基准的方向

本文研究信息提取的问题，探讨了文档信息提取问题、数据集、基准测试等方面，提出了机器学习中的关键信息定位、提取和条目识别问题，并批评了目前缺乏半结构化商务文档的相关数据集和基准测试。

Jun, 2022

利用信息提取和压缩进行大规模多文档摘要

开发了一种基于抽象的总结框架，适用于多个异构文档，该框架独立于标记数据。与现有的多文件总结方法不同，我们的框架处理讲述不同故事的文档，而不是同一主题的文档。最后，我们基于 CNN / Daily Mail 和 NewsRoom 数据集构建了总共十二个数据集变体，其中每个文档组都包含大量且多样化的文档，以评估我们的模型与其他基线系统的性能。我们的实验表明，我们的框架在这种更通用的情况下胜过了现有的最先进方法。

May, 2022

面向统计法律分析的数据高效端到端信息提取

该研究介绍了一种用于法律文件信息抽取的端到端系统，实验结果表明，该系统可以在少于 50 个训练样本的情况下比基于规则的基线方法得到更好的结果，并且使用 200 个样本可以得到更高的得分，并且使用这个系统从醉酒驾驶和欺诈两个案例类别的 3.5 万个案例中抽取出的结构化信息真实反映了韩国法律系统的宏观特征。

Nov, 2022