利用增强人工智能与计算机视觉从非结构化数据中进行信息提取
本文系统综述了 2007 年至 2022 年间的开放信息提取技术,提出了基于信息来源的新分类方法,并总结了三种主要方法、当前流行的数据集和模型评估指标,展示了数据集、信息来源、输出形式、方法和评估指标等方面的未来发展方向。
Aug, 2022
本文提出了一种统一的端到端文本阅读和信息提取网络,通过融合文本阅读的多模态视觉和文本特征来实现信息提取,并且信息提取中的语义有助于优化文本阅读,该方法在真实世界的数据集上表现出比现有方法更高的效率和准确性。
May, 2020
本文研究信息提取方法,提出利用人工验证的弱监督标记方法,结合人工与计算机快速处理,以实现在精度要求高的情境下避免纯手工提取耗时过长的难题,并在犯罪司法数据集上实证其优越性。
Feb, 2023
本文提出了通过将文档信息抽取 (IE) 作为序列生成任务的方式,将现有的基于流水线的 IE 系统转变为端到端系统的尝试,着重解决了大规模实际部署所涉及的实际挑战,并证明了单个端到端 IE 系统仍然能够实现竞争性能。
Apr, 2021
本文研究信息提取的问题,探讨了文档信息提取问题、数据集、基准测试等方面,提出了机器学习中的关键信息定位、提取和条目识别问题,并批评了目前缺乏半结构化商务文档的相关数据集和基准测试。
Jun, 2022
本文针对信息提取系统在不同任务之间交互存在困难的问题,提出了一种易于模仿人类学习过程的三阶段联合学习框架,该框架可以使模型更好地学习不同任务之间的知识和提高其泛化能力, 在四项 IE 任务上进行的广泛实验表明了本框架的有效性。
May, 2023
本论文提出了一种轻量级的特征无关的信息提取 (IE)范例,可以处理语言模式不规范、长尾概念漂移等问题,特别适用于人口贩卖等非法领域;经验证明,在低监督和高监督设置下,该范例可以比传统的基于特征的条件随机场提升 18%以上的 F - 度量,并且能够漂移概念稳定性高。
Mar, 2017
这篇综述研究对最近的文档级信息抽取文献进行了系统回顾,通过与当前最先进的算法进行彻底的错误分析,确定它们的局限性以及文档级信息抽取任务的剩余挑战,包括标签误差、实体关联解析和缺乏推理,严重影响文档级信息抽取的性能。本综述的目标是为 NLP 研究人员提供更多见解,帮助进一步提高文档级信息抽取的性能。
Sep, 2023
本文提出了一种通过使用转移学习的方法,并结合深度神经网络和统计分类器的结合来进行信息提取,将该方法应用于日本政府工程竞标实际案例的文档处理中,证明了该模型能够提取具有详细信息精度的细粒度命名实体。
Mar, 2020