Jul, 2022

基于离散推理实现复杂文档理解

TL;DR本文提供了一个名为TAT-DQA的新的数据集,包含来自财务报告的,既有半结构化表格和非结构化文本,又有16558个问答对。此外,作者发明了一种新的文档VQA模型MHST,可以智能地处理来自多种模态的信息,从而有效地回答不同类型的问题,并运用离散推理来训练。结果表明,该模型明显优于基线方法,但仍然远远落后于专家人类。作者希望通过提供新的数据集能够促进对融合视觉和语言的视觉丰富文档的深度理解的研究。