Previous works on key information extraction from visually rich documents
(VRDs) mainly focus on labeling the text within each bounding box (i.e.,
semantic entity), while the relations in-between are largely unexplored. In
this paper, we adapt the popular dependency parsing model, the biaffin
本文研究信息提取的问题,使用大型预训练语言模型和图神经网络相结合的模型来高效地编码视觉和文本信息,并引入新的微调目标,通过使用大量未标记的领域内数据来改善领域内无监督微调。我们在真实世界的发票和简历数据集上进行了实验,并表明所提出的方法在发票上的绝对 F1 比强文本基线高出 6.3% ,在简历中 F1 绝对值增加了 4.7%。在少数样本情况下,我们的方法需要比基线少 30 倍的批注数据才能在约 90%的 F1 达到相同的性能水平。