MAVIS: 数学视觉教学优化

Jul, 2024

MAVIS: Mathematical Visual Instruction Tuning

Renrui Zhang, Xinyu Wei, Dongzhi Jiang, Yichi Zhang, Ziyu Guo...

TL;DR提出了MAVIS方法，通过多个阶段的训练实现多模式大型语言模型在数学领域中进行视觉编码、图表语言对齐和数学推理能力的提升。

Abstract

multi-modal large language models (MLLMs) have recently emerged as a significant focus in academia and industry. Despite their proficiency in general multi-modal scenarios, the mathematical problem-solving capabilities in visual contexts remain insufficiently explored. We identify thre

发现论文，激发创造

MathVista: 在视觉背景中评估基础模型的数学推理

通过创建MathVista基准测试，研究提出了对于大型语言模型和大型多模态模型在数学推理和视觉背景下的能力的正式研究，并详细评估了11种不同模型的性能，为未来的通用AI代理的发展提出了挑战。

Oct, 2023

什么是好的视觉指导？为视觉指导调整综合复杂视觉推理指导方法

通过对复杂视觉推理任务进行重点指导，我们设计了一个系统性的方法来自动创建高质量的复杂视觉推理指导，实验证明我们的数据集显著提高了所有比较的多模态大型语言模型的性能。

Nov, 2023

使用MATH-Vision数据库测量多模态数学推理

我们通过提供一组全面多样的问题来评估大规模多模态模型的数学推理能力，并发现目前的模型在MATH-V数据集上与人类表现存在明显差距，强调了对大规模多模态模型的进一步发展的必要性，此外，我们的详细分类还允许对其错误进行全面分析，为未来的研究和开发提供有价值的见解。

Feb, 2024

MathVerse: 您的多模式LLM真正看到视觉数学问题中的图表吗？

通过引入MathVerse基准测试，我们深入评估多模态大型语言模型（MLLMs）在解决视觉数学问题方面的能力，并提出了链式思维（CoT）评估策略以评估输出答案的细微推理步骤，以期为MLLMs的未来发展提供独特的见解。

Mar, 2024

MARVEL: 多维度的可视化评估和学习中的抽象和推理

多模态大型语言模型在抽象视觉推理方面呈现出近乎随机的性能，无法理解视觉特征和难以进行抽象推理。

Apr, 2024

We-Math: 您的大型多模型是否实现了类人数学推理？

WE-MATH是第一个旨在探索问题解决原则的基准测试，通过分解复合问题，并引入新的四维度评估指标，评估了LMMs在视觉数学推理中的固有问题，为知识获取与泛化提供支持，评估现有LMMs在视觉数学推理中的表现，揭示了求解步骤与问题特定表现之间的负相关，并指出GPT-4o的主要挑战由不足的知识转变为不足的泛化。

Jul, 2024

MathScape：通过分层基准评估多模态数学场景中的大规模语言模型

本研究解决了多模态大语言模型在数学问题评估中的视觉与文本信息整合不足的问题。提出的MathScape基准通过分层方法，强调对结合视觉和文本信息的理解与应用能力的评估。研究发现该基准对先进模型具有挑战性，识别了MLLMs的局限性，为提升模型性能提供了重要见解。

Aug, 2024

MathScape：通过分层基准评估多模态大型语言模型在数学场景中的表现

本研究针对以往多模态数学基准未充分整合视觉与文本信息的问题，提出了MathScape基准，强调对综合视觉与文本信息的理解与应用。研究结果显示，该基准对最先进的多模态大型语言模型而言具有挑战性，并通过评估发现模型的局限性，为提升模型性能提供了重要见解。

Aug, 2024

鹰：通过大型语言模型赋能的视觉指导调优提升几何推理

该研究针对现有多模态大型语言模型在几何问题解决中的视觉感知不足进行探讨，发现其存在显著的几何感知不准确和幻觉问题。提出EAGLE框架，通过两阶段的视觉增强提升几何推理能力，在多个基准测试中表现优异，超越了现有先进模型，展示了其在几何推理领域的潜在影响。

Aug, 2024

MathScape：通过分层基准评估多模态数学场景中的大型语言模型

本研究针对现有多模态数学评估基准未能有效整合视觉和文本信息的问题，提出了MathScape，一个新的分层基准，强调组合视觉和文本理解及应用。研究表明，该基准即使对最先进的多模态大型语言模型也具有挑战性，分析结果揭示了这些模型的局限性，为改进模型性能提供了重要见解。

Aug, 2024