CREPE: 坐标感知的端到端文档解析器

May, 2024

CREPE: 坐标感知的端到端文档解析器

CREPE: Coordinate-Aware End-to-End Document Parser

Yamato Okamoto, Youngmin Baek, Geewook Kim, Ryota Nakao, DongHyun Kim...

TL;DR通过 OCR-free 序列生成模型，本研究提出了 Coordinate-aware End-to-end Document Parser (CREPE) 模型，用于图像文档理解。该模型不仅可以从文档图像中解析文本，还可以提取文本的空间坐标，并通过引入特殊标记和基于标记的坐标解码实现这些功能。实验结果表明 CREPE 在文档解析任务上取得了最新的性能，其适应性还体现在布局分析、文档视觉问答等其他文档理解任务中。该模型不仅减少了现有依赖 OCR 方法的错误传播问题，还显著增强了序列生成模型的功能，引领了文档理解研究的新时代。

Abstract

In this study, we formulate an ocr-free sequence generation model for visual document understanding (VDU). Our model not only parses text from document images but also extracts the spatial coordinates of the text based on the multi-head architecture. Named as →

ocr-free sequence generation model visual document understanding coordinate-aware end-to-end document parser weakly-supervised framework document parsing tasks

发现论文，激发创造

DocParser: 基于端到端的无 OCR 信息提取技术，用于含丰富视觉元素的文档

本文提出了基于 DocParser 的 OCR-free 端到端信息提取模型，不同于以往的方法，其能更好地提取具有区别性的字符特征，并在各种数据集上实现了最先进的结果，同时速度比以前的工作还要快。

Apr, 2023

使用 CLIP 的可学习提示改进了视觉关系预测

本文介绍了基于 CLIP 的模型在预测物体关系方面的潜力及对 UVTransE 框架进行了优化，提出了 CLIP Representation Enhanced Predicate Estimation (CREPE) 方法，通过对三个边界框的文本表示进行对比训练，取得了 state-of-the-art 的预测成果。

Jul, 2023

PEaCE：面向科学文档的光学字符识别数据集

光学字符识别（OCR）是一项旨在识别图像中存在的文本的已建立任务。本研究旨在通过提出 PEaCE 数据集并评估基于 Transformer 的 OCR 模型的有效性，弥合 Parse PubMed 文章中的表格这个问题，并发现小块大小的模型通过使用所提出的转换在多个领域上训练能够获得最佳性能。

Mar, 2024

OmniParser: 文本检测、关键信息提取和表格识别的统一框架

通过构建一个统一的模型 OmniParser，本文在处理不同场景的可视化文本解析问题上取得了最先进的性能，并且在文本定位、关键信息提取和表格识别任务上表现出色。

Mar, 2024

CoRec：协同识别的简便方法

我们提出了一个名为 COordination RECognizer (CoRec) 的流水线模型，用于解决协调识别任务的挑战，该模型包含两个组件：协调识别器和从句边界检测器，并在来自各个领域的数据集上进行实验，证明了该方法的有效性和效率，进一步实验证明 CoRec 对于下游任务有积极影响，提高了最先进的 Open IE 模型的产出。

Nov, 2023

UPOCR：面向统一像素级 OCR 接口

提出了一种名为 UPOCR 的简单而有效的通用模型，用于统一的像素级光学字符识别接口，通过图像转化和基于视觉 Transformer 的编码器 - 解码器结构统一了多样的 OCR 任务的范式，并引入可学习的任务提示使解码器具有任务感知性，在三个像素级 OCR 任务上的实验结果显示，该方法可以在一个统一的模型上同时实现三个任务的最先进性能，为未来关于通用 OCR 模型的研究提供了有价值的策略和见解。

Dec, 2023

DocParseNet：高级语义分割和 OCR 嵌入用于高效扫描文档标注

DocParseNet 是一种将深度学习和多模态学习相结合的模型，通过处理文本和图像数据来自动化扫描文档的标注，实现了快速而准确的文档注释以及在语义处理方面的突破。

Jun, 2024

构建多元数字历史的高效 OCR

通过对 OCR 进行字符级图像检索建模，解决了现有体系结构在低资源情况下无法准确识别光学字符识别问题的不足，并为社区参与使数字历史更具代表性开辟了新的途径。

Apr, 2023

从文档中进行端到端信息提取 -- 出席、复制、解析

本文提出了一种深度神经网络模型 ——Attend，Copy，Parse，该模型可直接在端到端数据上进行训练，跳过了创建复杂的单词级标签的需求，因此被认为在许多现实生活信息提取任务中可以使用。

Dec, 2018

CPGAN：全谱内容解析生成对抗网络用于文本到图像合成

通过解析输入文本和合成图像的内容，构建一个内存结构并设计条件鉴别器，建立文本与图像在语义级别的一致性，从而提高文本到图像的生成性能。

Dec, 2019