May, 2024

AltChart: 多预训练任务提升基于 VLM 的图表摘要

TL;DR图表概括对于盲人和视障人士来说是一项至关重要的任务,因为它是他们获取和解释图形数据的主要手段。本研究提出了三个关键贡献:引入了 AltChart 数据集,提出了一个新的预训练视觉语言模型的方法,以及对四种主流图表概括模型进行了全面评估。