Oct, 2024

动态数学:评估视觉语言模型数学推理稳健性的动态视觉基准

TL;DR本研究针对当前视觉语言模型(VLMs)在数学推理任务中的局限性,提出了动态视觉数学基准DynaMath,以评估其在不同问题变化下的解决能力。通过对501个高质量种子问题进行动态生成,DynaMath能更全面地评估模型的泛化能力,并揭示了现有模型在应对多变输入条件时显著较低的最坏情况准确率。这一发现突显了对VLM推理能力稳健性研究的需求,同时为更可靠的数学推理模型发展提供了重要参考。