使用改进的图学习卷积网络从文档中提取关键信息的 PICK 技术

Apr, 2020

使用改进的图学习卷积网络从文档中提取关键信息的 PICK 技术

PICK: Processing Key Information Extraction from Documents using Improved Graph Learning-Convolutional Networks

Wenwen Yu, Ning Lu, Xianbiao Qi, Ping Gong, Rong Xiao

TL;DR该文介绍了使用图形学习与图形卷积操作相结合的 PICK 框架，以处理 KIE 中复杂文档布局，从而获得包含文本和视觉特征和全局布局的更丰富的语义表示，并通过实验表明了该方法的性能优于基线方法。

Abstract

computer vision with state-of-the-art deep learning models has achieved huge success in the field of optical character recognition (OCR) including text detection and recognition tasks recently. However,

computer vision optical character recognition key information extraction pick graph convolution

发现论文，激发创造

GenKIE：鲁棒的生成多模态文档关键信息抽取

提出了一种名为 GenKIE 的新型生成式端到端模型，利用多模态编码器嵌入视觉、版面布局和文本特征，并利用解码器生成所需的输出，从而解决了来自扫描文档的关键信息抽取任务。实验证明 GenKIE 能够有效泛化到不同类型的文档，并在 OCR 错误方面表现出鲁棒性，因此在实际场景中具有广泛的应用前景。

Oct, 2023

基于深度学习与基于规则的修正在采购文件中的关键信息提取

本文利用深度学习和基于规则的矫正技术对采购文件中的重要信息进行提取，通过实验证明规则矫正技术对于基于深度学习的分类结果有着显著的提升。

Oct, 2022

使用任务优化实现端到端文档分类和关键信息提取

本文提出了一种基于端到端文档分类和关键信息提取的表格自动处理方法，其中采用了文本和布局编码技术，利用余弦相似度度量来对视觉上相似的文档进行分类，进而使用混合整数规划来提取文档中的关键信息，实验表明本方法对于文档预处理等优化技术具有重要作用，并取得了令人满意的实验效果。

Jun, 2023

VKIE：视频文本关键信息提取应用

从视频中提取结构化信息，是工业界许多下游应用的关键。本文定义了从视频中的视觉文本提取分层关键信息的重要任务，并介绍了名为 PipVKIE 和 UniVKIE 的两种实现解决方案。PipVKIE 逐个连续阶段完成四个子任务，而 UniVKIE 通过将所有子任务统一到一个主干中进行改进。PipVKIE 和 UniVKIE 都利用视觉、文本和坐标的多模态信息进行特征表示。在一个明确定义的数据集上进行了大量实验，证明我们的解决方案可以实现出色的性能和高效的推理速度。代码和数据集将公开提供。

Oct, 2023

TRIE：端到端文本阅读和信息提取以实现文档理解

本文提出了一种统一的端到端文本阅读和信息提取网络，通过融合文本阅读的多模态视觉和文本特征来实现信息提取，并且信息提取中的语义有助于优化文本阅读，该方法在真实世界的数据集上表现出比现有方法更高的效率和准确性。

May, 2020

基于空间双模态图推理的关键信息提取

本文提出了一种旨在从文档图片中提取关键信息的端到端空间双模图形推理方法，将文档图像建模为双模图，节点编码检测到的文本区域的视觉和文本特征，边表示相邻文本区域的空间关系，并通过沿图边传播消息和推理图节点的类别来解决关键信息提取问题；进一步提供了一个新的数据集 “WildReceipt”，其中包含 25 个关键信息类别，约 69000 个文本框，并在 SROIE 和 WildReceipt 上获得了最新的最佳结果。

Mar, 2021

CUTIE: 使用卷积通用文本信息提取器学习理解文档

本文介绍一种基于卷积神经网络的文本信息提取方法，称为 Convolutional Universal Text Information Extractor（CUTIE），该方法可以应用于文档中的语义和空间分布，以提取关键信息，并在不需要预训练或后处理的情况下，取得了比使用命名实体识别方法更好的性能。

Mar, 2019

RealKIE: 为企业关键信息提取设计的五个新数据集

RealKIE 是一个具有五个具有挑战性数据集的基准测试，旨在推进关键信息提取方法，重点关注企业应用。这些数据集包括一系列不同类型的文档，包括 SEC S1 文件，美国保密协议，英国慈善报告，FCC 发票和资源合同。除了介绍这些数据集外，我们还提供了详细的注释过程、文档处理技术和基准建模方法的描述，以促进开发能处理实际挑战并支持研究产业特定问题的信息提取技术的进一步研究。

Mar, 2024

深度阅读器：通过关系抽取和自然语言从文档图像中提取信息

这篇论文介绍了一种名为 DeepReader 的新型企业级综合框架，其通过识别文档图像中的视觉实体并在不同实体之间填充元关系模型来促进文档图像中的信息提取，包括从表格、图表、脚注、文本框和标题等视觉实体中提取相关信息。

Dec, 2018

从视觉丰富文档中提取多模态信息的图卷积

本文提出了一种基于图卷积的模型来将文本和视觉信息相结合以实现对视觉丰富的文档中实体抽取的方法，并通过实验证明了所提出的模型在两个真实数据集上的性能远优于 BiLSTM-CRF 模型。

Mar, 2019