使用改进的图学习卷积网络从文档中提取关键信息的 PICK 技术
提出了一种名为 GenKIE 的新型生成式端到端模型,利用多模态编码器嵌入视觉、版面布局和文本特征,并利用解码器生成所需的输出,从而解决了来自扫描文档的关键信息抽取任务。实验证明 GenKIE 能够有效泛化到不同类型的文档,并在 OCR 错误方面表现出鲁棒性,因此在实际场景中具有广泛的应用前景。
Oct, 2023
本文利用深度学习和基于规则的矫正技术对采购文件中的重要信息进行提取,通过实验证明规则矫正技术对于基于深度学习的分类结果有着显著的提升。
Oct, 2022
本文提出了一种基于端到端文档分类和关键信息提取的表格自动处理方法,其中采用了文本和布局编码技术,利用余弦相似度度量来对视觉上相似的文档进行分类,进而使用混合整数规划来提取文档中的关键信息,实验表明本方法对于文档预处理等优化技术具有重要作用,并取得了令人满意的实验效果。
Jun, 2023
从视频中提取结构化信息,是工业界许多下游应用的关键。本文定义了从视频中的视觉文本提取分层关键信息的重要任务,并介绍了名为 PipVKIE 和 UniVKIE 的两种实现解决方案。PipVKIE 逐个连续阶段完成四个子任务,而 UniVKIE 通过将所有子任务统一到一个主干中进行改进。PipVKIE 和 UniVKIE 都利用视觉、文本和坐标的多模态信息进行特征表示。在一个明确定义的数据集上进行了大量实验,证明我们的解决方案可以实现出色的性能和高效的推理速度。代码和数据集将公开提供。
Oct, 2023
本文提出了一种统一的端到端文本阅读和信息提取网络,通过融合文本阅读的多模态视觉和文本特征来实现信息提取,并且信息提取中的语义有助于优化文本阅读,该方法在真实世界的数据集上表现出比现有方法更高的效率和准确性。
May, 2020
本文提出了一种旨在从文档图片中提取关键信息的端到端空间双模图形推理方法,将文档图像建模为双模图,节点编码检测到的文本区域的视觉和文本特征,边表示相邻文本区域的空间关系,并通过沿图边传播消息和推理图节点的类别来解决关键信息提取问题;进一步提供了一个新的数据集 “WildReceipt”,其中包含 25 个关键信息类别,约 69000 个文本框,并在 SROIE 和 WildReceipt 上获得了最新的最佳结果。
Mar, 2021
本文介绍一种基于卷积神经网络的文本信息提取方法,称为 Convolutional Universal Text Information Extractor(CUTIE),该方法可以应用于文档中的语义和空间分布,以提取关键信息,并在不需要预训练或后处理的情况下,取得了比使用命名实体识别方法更好的性能。
Mar, 2019
RealKIE 是一个具有五个具有挑战性数据集的基准测试,旨在推进关键信息提取方法,重点关注企业应用。这些数据集包括一系列不同类型的文档,包括 SEC S1 文件,美国保密协议,英国慈善报告,FCC 发票和资源合同。除了介绍这些数据集外,我们还提供了详细的注释过程、文档处理技术和基准建模方法的描述,以促进开发能处理实际挑战并支持研究产业特定问题的信息提取技术的进一步研究。
Mar, 2024
这篇论文介绍了一种名为 DeepReader 的新型企业级综合框架,其通过识别文档图像中的视觉实体并在不同实体之间填充元关系模型来促进文档图像中的信息提取,包括从表格、图表、脚注、文本框和标题等视觉实体中提取相关信息。
Dec, 2018
本文提出了一种基于图卷积的模型来将文本和视觉信息相结合以实现对视觉丰富的文档中实体抽取的方法,并通过实验证明了所提出的模型在两个真实数据集上的性能远优于 BiLSTM-CRF 模型。
Mar, 2019