Nov, 2019

DocParser: 文档呈现的分层结构解析

TL;DR本文提出了DocParser,它是一种端到端的系统,可以解析包括所有文本元素、嵌套图形、表格和表格单元结构在内的完整文档结构,并提出了一种基于弱监督的可扩展学习框架以提高文档结构解析性能。研究表明,相比于没有弱监督的基线,这种方法可以提高39.1%的文档实体检测平均精度,并提高35.8%的分层关系分类F1得分。