Jun, 2024

通过有效的预训练任务提升图表问答能力

TL;DR为了解决现有视觉问答模型在图表问题上的不足,本研究通过行为分析,提出了三个简单的预训练任务以改进现有模型的结构 - 视觉知识和对数字问题的理解,将预训练模型(MatCha-v2)应用在三个图表数据集上,相比基准模型,性能平均提升了 1.7%。