Feb, 2024

M3-VRD:多模态多任务多教师基于视觉丰富的表格文档理解

TL;DR本论文介绍一种划时代的多模态、多任务、多教师关节粒度知识蒸馏模型,用于视觉丰富型表单文件的理解。该模型旨在通过促进标记和实体表示之间微妙的相关性,从细粒度和粗粒度层面的洞察中获取 in design,从而解决表单文件中的复杂性问题。此外,我们引入了新的相互粒度损失函数和交叉粒度损失函数,以进一步优化多教师知识蒸馏的传递过程,呈现出分布差异和对表单文件的协调理解。通过全面评估公开可用的表单文件理解数据集,我们提出的模型始终优于现有基准线,在处理视觉复杂表单文件的复杂结构和内容方面展示其功效。