DocXChain:一个强大的开源工具链,用于文档解析及其之后的工作
本文提出了 DocParser,它是一种端到端的系统,可以解析包括所有文本元素、嵌套图形、表格和表格单元结构在内的完整文档结构,并提出了一种基于弱监督的可扩展学习框架以提高文档结构解析性能。研究表明,相比于没有弱监督的基线,这种方法可以提高 39.1%的文档实体检测平均精度,并提高 35.8%的分层关系分类 F1 得分。
Nov, 2019
本文提出了基于 DocParser 的 OCR-free 端到端信息提取模型,不同于以往的方法,其能更好地提取具有区别性的字符特征,并在各种数据集上实现了最先进的结果,同时速度比以前的工作还要快。
Apr, 2023
在这项研究中,我们介绍了一种名为 DSG 的文档解析系统,它是一种全面可训练的端到端系统,用于将渲染文档映射到结构化的分层格式。我们通过训练 DSG 系统,使其在实际应用中具有高效和灵活的功能,并在评估中证明 DSG 优于商业 OCR 工具并且达到了最先进的性能水平。据我们所知,我们的 DSG 系统是第一个进行层次化文档解析的全面可训练系统。
Oct, 2023
MindTheDApp 是一种专为以太坊分布式应用(DApp)结构分析而设计的工具,利用 ANTLR4 和抽象语法树(AST)遍历技术将智能合约的架构和交互转化为专门的二分图,以实现高级网络分析,从而突出 DApp 体系结构中的操作效率。
Oct, 2023
这篇论文介绍了名为 layoutparser 的开源库,使用 DL 模型来简化文档图像分析(DIA)研究和应用,并旨在提供轻量级和大规模数字化管道的帮助。
Mar, 2021
这篇研究文章介绍了一种基于 GNN 模型的文档理解框架 ——Doc2Graph,可用于处理不同类型文档的不同任务,如发票布局分析及表格识别等,旨在提高信息提取的效率。
Aug, 2022
通过提取自科学文档中的多模态数据,并评估大型模型处理科学文档任务的能力,对科学文档记录的研究发现和有价值的人类知识进行综合性的数据分析是有意义的。我们介绍了 DocGenome,这是一个结构化文档基准,通过我们的自定义自动标注流水线对 arXiv 开放访问社区中的 153 个学科的 50 万份科学文档进行注释,它具有完整性、逻辑性、多样性和正确性等四个关键特征。我们进行广泛的实验证明了 DocGenome 的优势,并客观评估了大型模型在我们的基准上的性能。
Jun, 2024
该研究提出了一种新型的端到端模型 - Doc2EDAG,可以生成一个基于实体的有向无环图,有效地完成文档级事件提取(DEE)任务,并将 DEE 任务重新定义为无触发词设计,以缓解文档级事件标注的负担。
Apr, 2019