ACLJun, 2021

利用可视化排版组件提高从科学 PDF 文件中提取结构化内容的效果

TL;DR本文提出了一种新颖的方法,即 I-VILA 和 H-VILA,可以用于从科学论文的 PDF 文件中准确地提取结构化内容,不需要进行昂贵的额外预训练,并通过在模型输入中加入特殊标记或层次编码来提高分类性能或降低推理时间。