Feb, 2024

TreeForm: 表格文档解析的端到端标注与评估

TL;DR我们提出了一种新的 F1 度量标准来评估表单解析器,并描述了一种适用于 Visually Rich Form Understanding 的内容不可知的基于树的注释方案:TreeForm。我们提供了将以前的注释方案转换为 TreeForm 结构并使用归一化树编辑距离的修改版本来评估 TreeForm 预测的方法。我们在 FUNSD 和 XFUND 数据集上分别得到了 61.5 和 26.4 的 end-to-end 性能评估和 TreeForm 编辑距离的初始基线。我们希望 TreeForm 可以促进对表单类文档注释、建模和评估复杂性的深入研究。