鹰：通过大型语言模型赋能的视觉指导调优提升几何推理

Aug, 2024

鹰：通过大型语言模型赋能的视觉指导调优提升几何推理

EAGLE: Elevating Geometric Reasoning through LLM-empowered Visual Instruction Tuning

Zhihao Li, Yao Du, Yang Liu, Yan Zhang, Yufang Liu...

TL;DR该研究针对现有多模态大型语言模型在几何问题解决中的视觉感知不足进行探讨，发现其存在显著的几何感知不准确和幻觉问题。提出EAGLE框架，通过两阶段的视觉增强提升几何推理能力，在多个基准测试中表现优异，超越了现有先进模型，展示了其在几何推理领域的潜在影响。

Abstract

multi-modal Large language models have recently experienced rapid developments and excel in various multi-modal tasks. However, they still

发现论文，激发创造

G-LLaVA：多模态大型语言模型解决几何问题

利用图像输入，通过理解几何问题，使大型语言模型能够解决几何问题，构建了一个丰富的多模态几何数据集Geo170K，发展了G-LLaVA，在MathVista基准测试上以仅有7B参数显著优于GPT-4-V。

Dec, 2023

GeomVerse：几何推理的大型模型的系统评估

大语言模型在多步数学推理方面表现出色，但包含文字和图像的数学推理问题需要评估视觉语言模型的推理能力。通过几何问题的镜头，我们通过多个角度评估视觉语言模型的推理能力。我们创建了一个合成的几何问题数据集，具有可控的难度级别，从而进行系统评估。我们的基准测试结果表明，这些模型在几何等主题的推理能力上并不如先前的基准测试所暗示的那样出色，特别是通过我们基准测试的多个深度级别构建，因为解决更深的问题需要更长的推理链而不是额外的记忆知识。我们释放这个数据集供进一步研究使用。

Dec, 2023

超越线和圆：揭示大型语言模型中的几何推理差距

大型语言模型（LLMs）在数学和算法任务中展现日益增长的能力，但它们的几何推理技能尚未被充分探索。我们研究了LLMs在构造性几何问题求解上的能力，这是人类数学推理发展中最基本的一步。我们的工作揭示了当前LLMs面临的显著挑战，尽管在类似领域取得了很多成功。LLMs在目标变量选择上存在偏见，并且在二维空间关系方面遇到困难，常常误代和产生对象及其放置的幻觉。为此，我们介绍了一个基于LLMs的多智能体系统框架，通过进行内部对话来增强它们现有的推理潜力。这项工作突出了LLMs在几何推理中目前的局限性，并通过自我纠正、协作和多样化角色专业化来改善几何推理能力。

Feb, 2024

MathVerse: 您的多模式LLM真正看到视觉数学问题中的图表吗？

通过引入MathVerse基准测试，我们深入评估多模态大型语言模型（MLLMs）在解决视觉数学问题方面的能力，并提出了链式思维（CoT）评估策略以评估输出答案的细微推理步骤，以期为MLLMs的未来发展提供独特的见解。

Mar, 2024

MARVEL: 多维度的可视化评估和学习中的抽象和推理

多模态大型语言模型在抽象视觉推理方面呈现出近乎随机的性能，无法理解视觉特征和难以进行抽象推理。

Apr, 2024

MAVIS: 数学视觉教学优化

提出了MAVIS方法，通过多个阶段的训练实现多模式大型语言模型在数学领域中进行视觉编码、图表语言对齐和数学推理能力的提升。

Jul, 2024

图示形式化增强的多模态几何问题求解器

该研究针对AI模型在处理几何问题时面临的语义和视觉信息不足的挑战，提出了图示形式化增强的几何问题求解框架（DFE-GPS）。通过引入新的合成数据方法和大规模几何数据集SynthGeo228K，研究显著提升了多模态语言模型对几何图形的理解能力，拓展了其在开放式任务中的应用潜力。

Sep, 2024

图形形式化增强的多模态几何问题求解器

本研究针对人工智能在几何问题求解中面临的数学推理挑战，提出了一种新的框架DFE-GPS，通过结合视觉特征、几何形式语言和自然语言表示来改善现有模型在理解几何图形上的能力。我们的主要发现是，使用新开发的合成数据集SynthGeo228K后，模型在几何问题解决方面表现显著提升，扩展了其在开放式任务中的应用。

Sep, 2024

EAGLE：朝着高效任意参考视觉提示的理解迈进

本研究解决了多模态大型语言模型在理解任意参考视觉提示时的效率问题，通过提出EAGLE模型，能够有效减少训练工作。该方法将参考视觉提示作为空间概念嵌入至模型中，从而提升了模型的语义理解能力，并结合几何无关学习的理念，验证了其在多样化参考提示场景中的卓越表现。

Sep, 2024

EAGLE：迈向高效任意指称视觉提示理解的多模态大型语言模型

本研究针对现有多模态大型语言模型（MLLM）在处理任意指称视觉提示时的有效性不足和架构冗余问题，提出了EAGLE方法，显著减少了训练成本。EAGLE通过保持指称视觉提示的原始格式，并引入空间概念嵌入，从而提升了模型对特定空间区域的语义理解，展示了在多样化实际场景中的高效表现。

Sep, 2024