PEaCE：面向科学文档的光学字符识别数据集

COLINGMar, 2024

PEaCE：面向科学文档的光学字符识别数据集

PEaCE: A Chemistry-Oriented Dataset for Optical Character Recognition on Scientific Documents

Nan Zhang, Connor Heaton, Sean Timothy Okonsky, Prasenjit Mitra, Hilal Ezgi Toraman

TL;DR光学字符识别（OCR）是一项旨在识别图像中存在的文本的已建立任务。本研究旨在通过提出 PEaCE 数据集并评估基于 Transformer 的 OCR 模型的有效性，弥合 Parse PubMed 文章中的表格这个问题，并发现小块大小的模型通过使用所提出的转换在多个领域上训练能够获得最佳性能。

Abstract

optical character recognition (OCR) is an established task with the objective of identifying the text present in an image. While many off-the-shelf OCR models exist, they are often trained for either scientific (e.g., formulae) or generic printed English text. Extracting text from

optical character recognition ocr model chemistry publications peace dataset transformer-based ocr models

发现论文，激发创造

诺加：学术文档的神经光学理解

我们提出了一种名为 Nougat 的神经光学理解学术文档的模型，它使用光学字符识别（OCR）将科学文档转换为标记语言。该方法有效地提高了数字时代科学知识的可访问性，将人类可读文档和机器可读文本之间的鸿沟缩小。我们发布了相关模型和代码以促进科学文本识别的未来工作。

Aug, 2023

面向任意形状场景文本的大规模端到端推理

本文利用收集在 TextVQA 数据集的真实图像上的 900K 个文本单词，提出了任意形状的场景文本检测和识别系统 TextOCR，使用该系统训练的 OCR 模型 PixelM4C 在图像上进行场景文本推理，以达到新的 TextVQA 数据集上的最新性能水平。

May, 2021

CREPE: 坐标感知的端到端文档解析器

通过 OCR-free 序列生成模型，本研究提出了 Coordinate-aware End-to-end Document Parser (CREPE) 模型，用于图像文档理解。该模型不仅可以从文档图像中解析文本，还可以提取文本的空间坐标，并通过引入特殊标记和基于标记的坐标解码实现这些功能。实验结果表明 CREPE 在文档解析任务上取得了最新的性能，其适应性还体现在布局分析、文档视觉问答等其他文档理解任务中。该模型不仅减少了现有依赖 OCR 方法的错误传播问题，还显著增强了序列生成模型的功能，引领了文档理解研究的新时代。

May, 2024

PP-OCR：一款实用的超轻型 OCR 系统

本论文提出了 PP-OCR，一个高效的光学字符识别系统，其模型大小仅有 3.5M。该系统通过采用一系列优化策略来提高模型能力和减小模型大小。此外，该系统支持多语言识别，包括法语、韩语、日语和德语。

Sep, 2020

OpenChemIE：化学文献信息提取工具包

OpenChemIE 是一种用于从化学文献中提取信息的开源工具，通过结合文本、表格和图像等多个模态来提取反应数据，并使用专门的神经模型和化学知识算法来实现高效的信息提取和集成。

Apr, 2024

基于图像的表格识别：数据、模型和评估

本研究提出了一个基于编码器 - 解码器结构的深度学习模型，用于将表格图像转换为 HTML 代码，并使用一种新的基于 Tree-Edit-Distance 相似度（TEDS）度量方法实现表格识别，实验结果表明所提出的模型在复杂表格识别方面具有优秀的表现。

Nov, 2019

UPOCR：面向统一像素级 OCR 接口

提出了一种名为 UPOCR 的简单而有效的通用模型，用于统一的像素级光学字符识别接口，通过图像转化和基于视觉 Transformer 的编码器 - 解码器结构统一了多样的 OCR 任务的范式，并引入可学习的任务提示使解码器具有任务感知性，在三个像素级 OCR 任务上的实验结果显示，该方法可以在一个统一的模型上同时实现三个任务的最先进性能，为未来关于通用 OCR 模型的研究提供了有价值的策略和见解。

Dec, 2023

解锁科学：跨模态科学信息提取的新型数据集和基准

从科学论文中提取关键信息有助于研究人员提高工作效率并加快科学进展的速度。在过去几年里，科学信息提取（SciIE）的研究见证了数个新系统和基准的发布。然而，现有以论文为中心的数据集主要只关注论文的特定部分（例如摘要），且为单模态（即只有文本或表格），这是因为处理复杂性和高昂的注释费用所导致。此外，核心信息可能存在于文本或表格中，或者跨越二者。为弥补这一数据可用性的差距并实现跨模态信息提取，同时减轻标注成本，我们提出了一个半监督的流程，用于迭代地对文本中的实体、以及表格中的实体和关系进行注释。基于此流程，我们为科学界提供了一些新资源，包括一个高质量的基准、一个大型语料库和一个半监督的注释流程。我们进一步报告了最先进的信息提取模型在提出的基准数据集上的性能作为一个基准。最后，我们探索了像 ChatGPT 这样的大型语言模型在当前任务中的潜在能力。我们的新数据集、结果和分析验证了半监督流程的有效性和效率，同时我们也讨论了其剩余的局限性。

Nov, 2023

深度学习技术实现高效无词典 OCR

本文提出一种无分割 OCR 系统，该系统将深度学习方法、数据增强方法和合成训练数据结合起来，使用大型文本语料库和 2000 多种字体渲染合成训练数据，并通过几何失真和提出的 alpha-compositing 数据增强技术模拟复杂的自然环境，并采用 CNN 编码器以提取文本图像特征，检验了序列模型与卷积模型在模拟输入元素交互方面的能力。

Jun, 2019

LOCR：基于位置引导的光学字符识别 Transformer

教育文档的光学字符识别 (OCR) 模型 LOCR，通过在自回归过程中将位置引导集成到变压器架构中，有效地解决了复杂布局文档中的重复问题，提高了准确性，同时还提供了交互式 OCR 模式。

Mar, 2024