MAVIS: 数学视觉教学优化
通过创建MathVista基准测试,研究提出了对于大型语言模型和大型多模态模型在数学推理和视觉背景下的能力的正式研究,并详细评估了11种不同模型的性能,为未来的通用AI代理的发展提出了挑战。
Oct, 2023
通过对复杂视觉推理任务进行重点指导,我们设计了一个系统性的方法来自动创建高质量的复杂视觉推理指导,实验证明我们的数据集显著提高了所有比较的多模态大型语言模型的性能。
Nov, 2023
我们通过提供一组全面多样的问题来评估大规模多模态模型的数学推理能力,并发现目前的模型在MATH-V数据集上与人类表现存在明显差距,强调了对大规模多模态模型的进一步发展的必要性,此外,我们的详细分类还允许对其错误进行全面分析,为未来的研究和开发提供有价值的见解。
Feb, 2024
通过引入MathVerse基准测试,我们深入评估多模态大型语言模型(MLLMs)在解决视觉数学问题方面的能力,并提出了链式思维(CoT)评估策略以评估输出答案的细微推理步骤,以期为MLLMs的未来发展提供独特的见解。
Mar, 2024
WE-MATH是第一个旨在探索问题解决原则的基准测试,通过分解复合问题,并引入新的四维度评估指标,评估了LMMs在视觉数学推理中的固有问题,为知识获取与泛化提供支持,评估现有LMMs在视觉数学推理中的表现,揭示了求解步骤与问题特定表现之间的负相关,并指出GPT-4o的主要挑战由不足的知识转变为不足的泛化。
Jul, 2024
本研究解决了多模态大语言模型在数学问题评估中的视觉与文本信息整合不足的问题。提出的MathScape基准通过分层方法,强调对结合视觉和文本信息的理解与应用能力的评估。研究发现该基准对先进模型具有挑战性,识别了MLLMs的局限性,为提升模型性能提供了重要见解。
Aug, 2024
本研究针对以往多模态数学基准未充分整合视觉与文本信息的问题,提出了MathScape基准,强调对综合视觉与文本信息的理解与应用。研究结果显示,该基准对最先进的多模态大型语言模型而言具有挑战性,并通过评估发现模型的局限性,为提升模型性能提供了重要见解。
Aug, 2024
该研究针对现有多模态大型语言模型在几何问题解决中的视觉感知不足进行探讨,发现其存在显著的几何感知不准确和幻觉问题。提出EAGLE框架,通过两阶段的视觉增强提升几何推理能力,在多个基准测试中表现优异,超越了现有先进模型,展示了其在几何推理领域的潜在影响。
Aug, 2024
本研究针对现有多模态数学评估基准未能有效整合视觉和文本信息的问题,提出了MathScape,一个新的分层基准,强调组合视觉和文本理解及应用。研究表明,该基准即使对最先进的多模态大型语言模型也具有挑战性,分析结果揭示了这些模型的局限性,为改进模型性能提供了重要见解。
Aug, 2024