野外环境下的视觉信息提取：实用数据集和端到端解决方案

May, 2023

野外环境下的视觉信息提取：实用数据集和端到端解决方案

Visual Information Extraction in the Wild: Practical Dataset and End-to-end Solution

Jianfeng Kuang, Wei Hua, Dingkang Liang, Mingkun Yang, Deqiang Jiang...

TL;DR该论文提出了一个更实际的数据集和一种新颖的端到端学习框架，通过对比学习缩小 OCR 和信息提取任务之间的语义差距来实现 VIE，然后在这个新数据集上评估现有的 VIE 方法并展示了性能提升。

Abstract

visual information extraction (VIE), which aims to simultaneously perform ocr and information extraction in a unified framework, has drawn increasing attention due to its essential role in various applications li

visual information extraction ocr end-to-end learning dataset performance

发现论文，激发创造

现实世界中稳健的视觉信息提取：新数据集和新方法

本文提出了一种鲁棒的视觉信息提取系统（VIES），它是一个统一的端到端可训练框架，用于同时进行文本检测、识别和信息提取。同时，本文构建了一个名为 EPHOIE 的数据集，它是用于文本定位和视觉信息提取的第一个中文基准数据集。与最先进的方法相比，我们的系统在 EPHOIE 数据集上取得了显著的优异表现，在 SROIE 数据集的端到端情况下，F 分数提高了 9.01％。

Jan, 2021

UniVIE：一种基于统一标签空间的表单式文档图像信息提取方法

现有的视觉信息提取方法通常将从表单样式文档中提取信息的过程分解为不同的子任务，我们提出了一种新的视角，将其重新定义为关系预测问题，并统一了不同任务的标签，以解决表单文档中的层次关系。我们提出的统一模型 UniVIE 通过构建树提案和关系解码模块来全面解决视觉信息提取问题，通过引入树注意力掩码和树级别嵌入来增强关系预测能力。在我们的数据集 HierForms 和公开数据集 SIBR 上进行的广泛实验评估证明了我们方法达到了最先进的结果，突显了我们统一方法在推进视觉信息提取领域的有效性和潜力。

Jan, 2024

MatchVIE: 利用实体之间的匹配相关性进行视觉信息提取

该研究提出了一种基于图神经网络的键值匹配模型 MatchVIE 用于视觉信息提取任务，通过关键词匹配和相关性评估实现了对实体之间的强相关度依赖，模型中采用的 Num2Vec 操作有助于提高编码值的稳定性和收敛性。该方法在实验中证明优于以往的方法，是现有方法的一个良好补充。

Jun, 2021

TRIE：端到端文本阅读和信息提取以实现文档理解

本文提出了一种统一的端到端文本阅读和信息提取网络，通过融合文本阅读的多模态视觉和文本特征来实现信息提取，并且信息提取中的语义有助于优化文本阅读，该方法在真实世界的数据集上表现出比现有方法更高的效率和准确性。

May, 2020

基于布局的文档驱动对话信息提取：数据集、方法和演示

该研究构建了基于文档的对话系统，旨在从视觉丰富的文档（VRD）中提取结构和语义知识，以生成准确的回复，为此创建了一个布局感知的文档级信息提取数据集 LIE，并开发了基准方法考虑人类的布局特征，实验结果表明布局对基于 VRD 的提取至关重要，系统演示也验证了提取的知识能够帮助用户找到关心的答案。LIE 包含来自产品和官方文档中 4,061 页的 62k 注释，成为我们所知最大的基于 VRD 的信息提取数据集。

Jul, 2022

半结构化文档图像的高性价比端到端信息提取

本文提出了通过将文档信息抽取 (IE) 作为序列生成任务的方式，将现有的基于流水线的 IE 系统转变为端到端系统的尝试，着重解决了大规模实际部署所涉及的实际挑战，并证明了单个端到端 IE 系统仍然能够实现竞争性能。

Apr, 2021

VKIE：视频文本关键信息提取应用

从视频中提取结构化信息，是工业界许多下游应用的关键。本文定义了从视频中的视觉文本提取分层关键信息的重要任务，并介绍了名为 PipVKIE 和 UniVKIE 的两种实现解决方案。PipVKIE 逐个连续阶段完成四个子任务，而 UniVKIE 通过将所有子任务统一到一个主干中进行改进。PipVKIE 和 UniVKIE 都利用视觉、文本和坐标的多模态信息进行特征表示。在一个明确定义的数据集上进行了大量实验，证明我们的解决方案可以实现出色的性能和高效的推理速度。代码和数据集将公开提供。

Oct, 2023

深度阅读器：通过关系抽取和自然语言从文档图像中提取信息

这篇论文介绍了一种名为 DeepReader 的新型企业级综合框架，其通过识别文档图像中的视觉实体并在不同实体之间填充元关系模型来促进文档图像中的信息提取，包括从表格、图表、脚注、文本框和标题等视觉实体中提取相关信息。

Dec, 2018

GeoLayoutLM: 视觉信息提取的几何预训练

本文提出了一种名为 GeolayoutLM 的多模态框架，通过显式地建模提前准备阶段的几何关系来解决 Visual information extraction 领域中 semantic entity recognition 和 relation extraction 模型中的局限性，并在相关基准测试中取得了竞争性的高分数。

Apr, 2023

标记、复制或预测：一种统一的弱监督学习框架，用于使用序列进行视觉信息提取

本文提出了一种弱监督的学习框架 TCPN，采用了仅使用关键信息序列作为监督信号的训练策略，并且包含了两种推理模式：复制或预测模式和标记模式。在几个公共基准测试上，我们的方法展现了新的最先进表现，充分证明了它的有效性。

Jun, 2021