利用增强人工智能与计算机视觉从非结构化数据中进行信息提取

Dec, 2023

利用增强人工智能与计算机视觉从非结构化数据中进行信息提取

Information Extraction from Unstructured data using Augmented-AI and Computer Vision

Aditya Parikh

TL;DR利用 A2I 和计算机视觉技术提出了一种特殊的信息提取技术，适用于从非结构化数据中提取有意义的信息。

Abstract

Process of information extraction (IE) is often used to extract meaningful information from unstructured and unlabeled data. Conventional methods of data extraction including application of ocr and passing extrac

information extraction unstructured data ocr a2i computer vision

发现论文，激发创造

2007 年至 2022 年的开放式信息抽取 -- 综述

本文系统综述了 2007 年至 2022 年间的开放信息提取技术，提出了基于信息来源的新分类方法，并总结了三种主要方法、当前流行的数据集和模型评估指标，展示了数据集、信息来源、输出形式、方法和评估指标等方面的未来发展方向。

Aug, 2022

TRIE：端到端文本阅读和信息提取以实现文档理解

本文提出了一种统一的端到端文本阅读和信息提取网络，通过融合文本阅读的多模态视觉和文本特征来实现信息提取，并且信息提取中的语义有助于优化文本阅读，该方法在真实世界的数据集上表现出比现有方法更高的效率和准确性。

May, 2020

针对文本文档的高精度信息提取的人机协作优化

本文研究信息提取方法，提出利用人工验证的弱监督标记方法，结合人工与计算机快速处理，以实现在精度要求高的情境下避免纯手工提取耗时过长的难题，并在犯罪司法数据集上实证其优越性。

Feb, 2023

半结构化文档图像的高性价比端到端信息提取

本文提出了通过将文档信息抽取 (IE) 作为序列生成任务的方式，将现有的基于流水线的 IE 系统转变为端到端系统的尝试，着重解决了大规模实际部署所涉及的实际挑战，并证明了单个端到端 IE 系统仍然能够实现竞争性能。

Apr, 2021

商业文件信息提取：朝着实用基准的方向

本文研究信息提取的问题，探讨了文档信息提取问题、数据集、基准测试等方面，提出了机器学习中的关键信息定位、提取和条目识别问题，并批评了目前缺乏半结构化商务文档的相关数据集和基准测试。

Jun, 2022

信息提取的易到难学习

本文针对信息提取系统在不同任务之间交互存在困难的问题，提出了一种易于模仿人类学习过程的三阶段联合学习框架，该框架可以使模型更好地学习不同任务之间的知识和提高其泛化能力，在四项 IE 任务上进行的广泛实验表明了本框架的有效性。

May, 2023

基于数据效率的形式文档信息提取

本文介绍了如何使用少量标记数据和被标记语料库进行转移学习，以实现在规模上自动从表单状文件提取信息。

Jan, 2022

非法领域中的信息提取

本论文提出了一种轻量级的特征无关的信息提取（IE）范例，可以处理语言模式不规范、长尾概念漂移等问题，特别适用于人口贩卖等非法领域；经验证明，在低监督和高监督设置下，该范例可以比传统的基于特征的条件随机场提升 18％以上的 F - 度量，并且能够漂移概念稳定性高。

Mar, 2017

文档级信息提取概览

这篇综述研究对最近的文档级信息抽取文献进行了系统回顾，通过与当前最先进的算法进行彻底的错误分析，确定它们的局限性以及文档级信息抽取任务的剩余挑战，包括标签误差、实体关联解析和缺乏推理，严重影响文档级信息抽取的性能。本综述的目标是为 NLP 研究人员提供更多见解，帮助进一步提高文档级信息抽取的性能。

Sep, 2023

有限数据下的信息提取迁移学习

本文提出了一种通过使用转移学习的方法，并结合深度神经网络和统计分类器的结合来进行信息提取，将该方法应用于日本政府工程竞标实际案例的文档处理中，证明了该模型能够提取具有详细信息精度的细粒度命名实体。

Mar, 2020