ACLMay, 2023

通过跨模态图表对模型进行预训练提升视觉和语言任务中的图表理解能力

TL;DR介绍了一种名为 ChartT5 的 V+L 模型,通过对绘图表格对进行跨模态预训练学习,具备了解释图表信息的能力,其采用的两种新颖预训练目标 Masked Header Prediction (MHP) 和 Masked Value Prediction (MVP) 有效提高了模型的表格信息解释能力,在答题和总结图表方面的表现都超过了同类方法 8% 以上。