ACLMay, 2023
通过跨模态图表对模型进行预训练提升视觉和语言任务中的图表理解能力
Enhanced Chart Understanding in Vision and Language Task via Cross-modal Pre-training on Plot Table Pairs
Mingyang Zhou, Yi R. Fung, Long Chen, Christopher Thomas, Heng Ji...
TL;DR介绍了一种名为 ChartT5 的 V+L 模型,通过对绘图表格对进行跨模态预训练学习,具备了解释图表信息的能力,其采用的两种新颖预训练目标 Masked Header Prediction (MHP) 和 Masked Value Prediction (MVP) 有效提高了模型的表格信息解释能力,在答题和总结图表方面的表现都超过了同类方法 8% 以上。