Jul, 2024

揭示真相:LLM真的懂图表吗?对一致性和健壮性的深入研究

TL;DR图表问答是视觉语言理解的关键领域。本文评估了最先进的视觉语言模型在专门为本研究开发的全面数据集上的鲁棒性和一致性,包括多样化的问题类别和图表格式。我们研究了两个关键方面:1)模型处理不同级别的图表和问题复杂性的能力,2)模型在相同底层数据的不同视觉表示之间的鲁棒性。我们的分析揭示了基于问题和图表类型的显著性能差异,突显了当前模型的优势和劣势。此外,我们还确定了改进的方向,并提出了未来构建更强大可靠的图表问答系统的研究方向。本研究揭示了当前模型的局限性,并为未来领域的进步铺平了道路。