DocXChain：一个强大的开源工具链，用于文档解析及其之后的工作

Oct, 2023

DocXChain：一个强大的开源工具链，用于文档解析及其之后的工作

DocXChain: A Powerful Open-Source Toolchain for Document Parsing and Beyond

Cong Yao

TL;DRDocXChain 是一个强大的开源工具链，用于将非结构化文档（如文本、表格和图表）中的丰富信息自动转换为可读取和可操纵的结构化表示，提供了基本功能如文本检测、文本识别、表结构识别和布局分析，并且可以与现有的工具、库或模型轻松集成，以构建更强大的系统，实现更复杂和具有挑战性的任务。

Abstract

In this report, we introduce docxchain, a powerful open-source toolchain for document parsing, which is designed and developed to automatically convert the rich information embodied in →

docxchain document parsing unstructured documents structured representations text detection

发现论文，激发创造

DocParser: 文档呈现的分层结构解析

本文提出了 DocParser，它是一种端到端的系统，可以解析包括所有文本元素、嵌套图形、表格和表格单元结构在内的完整文档结构，并提出了一种基于弱监督的可扩展学习框架以提高文档结构解析性能。研究表明，相比于没有弱监督的基线，这种方法可以提高 39.1％的文档实体检测平均精度，并提高 35.8％的分层关系分类 F1 得分。

Nov, 2019

DocParser: 基于端到端的无 OCR 信息提取技术，用于含丰富视觉元素的文档

本文提出了基于 DocParser 的 OCR-free 端到端信息提取模型，不同于以往的方法，其能更好地提取具有区别性的字符特征，并在各种数据集上实现了最先进的结果，同时速度比以前的工作还要快。

Apr, 2023

CodeChain: 通过自修订的子模块链实现模块化代码生成

通过一系列自我修订实现模块化代码生成的 CodeChain 框架，在解决复杂编程任务方面取得显著提升。

Oct, 2023

DSG：一种端到端的文档结构生成器

在这项研究中，我们介绍了一种名为 DSG 的文档解析系统，它是一种全面可训练的端到端系统，用于将渲染文档映射到结构化的分层格式。我们通过训练 DSG 系统，使其在实际应用中具有高效和灵活的功能，并在评估中证明 DSG 优于商业 OCR 工具并且达到了最先进的性能水平。据我们所知，我们的 DSG 系统是第一个进行层次化文档解析的全面可训练系统。

Oct, 2023

XDoc: 跨格式文档理解的统一预训练

提出了一种名为 XDoc 的文档理解模型，该模型采用了预训练和微调框架用于处理不同格式的文档，该模型具有参数效率和适应性层等优点。

Oct, 2022

MindTheDApp：Complex 网络驱动的以太坊去中心化应用结构分析的工具链

MindTheDApp 是一种专为以太坊分布式应用（DApp）结构分析而设计的工具，利用 ANTLR4 和抽象语法树（AST）遍历技术将智能合约的架构和交互转化为专门的二分图，以实现高级网络分析，从而突出 DApp 体系结构中的操作效率。

Oct, 2023

LayoutParser：基于深度学习的文档图像分析统一工具集

这篇论文介绍了名为 layoutparser 的开源库，使用 DL 模型来简化文档图像分析（DIA）研究和应用，并旨在提供轻量级和大规模数字化管道的帮助。

Mar, 2021

Doc2Graph: 一种基于图神经网络的任务无关文档理解框架

这篇研究文章介绍了一种基于 GNN 模型的文档理解框架 ——Doc2Graph，可用于处理不同类型文档的不同任务，如发票布局分析及表格识别等，旨在提高信息提取的效率。

Aug, 2022

DocGenome：用于训练和测试多模态大型语言模型的开放式大规模科学文档基准

通过提取自科学文档中的多模态数据，并评估大型模型处理科学文档任务的能力，对科学文档记录的研究发现和有价值的人类知识进行综合性的数据分析是有意义的。我们介绍了 DocGenome，这是一个结构化文档基准，通过我们的自定义自动标注流水线对 arXiv 开放访问社区中的 153 个学科的 50 万份科学文档进行注释，它具有完整性、逻辑性、多样性和正确性等四个关键特征。我们进行广泛的实验证明了 DocGenome 的优势，并客观评估了大型模型在我们的基准上的性能。

Jun, 2024

Doc2EDAG：一个用于中文金融事件抽取的端到端文档级框架

该研究提出了一种新型的端到端模型 - Doc2EDAG，可以生成一个基于实体的有向无环图，有效地完成文档级事件提取（DEE）任务，并将 DEE 任务重新定义为无触发词设计，以缓解文档级事件标注的负担。

Apr, 2019