鹰:通过大型语言模型赋能的视觉指导调优提升几何推理
利用图像输入,通过理解几何问题,使大型语言模型能够解决几何问题,构建了一个丰富的多模态几何数据集Geo170K,发展了G-LLaVA, 在MathVista基准测试上以仅有7B参数显著优于GPT-4-V。
Dec, 2023
大语言模型在多步数学推理方面表现出色,但包含文字和图像的数学推理问题需要评估视觉语言模型的推理能力。通过几何问题的镜头,我们通过多个角度评估视觉语言模型的推理能力。我们创建了一个合成的几何问题数据集,具有可控的难度级别,从而进行系统评估。我们的基准测试结果表明,这些模型在几何等主题的推理能力上并不如先前的基准测试所暗示的那样出色,特别是通过我们基准测试的多个深度级别构建,因为解决更深的问题需要更长的推理链而不是额外的记忆知识。我们释放这个数据集供进一步研究使用。
Dec, 2023
大型语言模型(LLMs)在数学和算法任务中展现日益增长的能力,但它们的几何推理技能尚未被充分探索。我们研究了LLMs在构造性几何问题求解上的能力,这是人类数学推理发展中最基本的一步。我们的工作揭示了当前LLMs面临的显著挑战,尽管在类似领域取得了很多成功。LLMs在目标变量选择上存在偏见,并且在二维空间关系方面遇到困难,常常误代和产生对象及其放置的幻觉。为此,我们介绍了一个基于LLMs的多智能体系统框架,通过进行内部对话来增强它们现有的推理潜力。这项工作突出了LLMs在几何推理中目前的局限性,并通过自我纠正、协作和多样化角色专业化来改善几何推理能力。
Feb, 2024
通过引入MathVerse基准测试,我们深入评估多模态大型语言模型(MLLMs)在解决视觉数学问题方面的能力,并提出了链式思维(CoT)评估策略以评估输出答案的细微推理步骤,以期为MLLMs的未来发展提供独特的见解。
Mar, 2024
该研究针对AI模型在处理几何问题时面临的语义和视觉信息不足的挑战,提出了图示形式化增强的几何问题求解框架(DFE-GPS)。通过引入新的合成数据方法和大规模几何数据集SynthGeo228K,研究显著提升了多模态语言模型对几何图形的理解能力,拓展了其在开放式任务中的应用潜力。
Sep, 2024
本研究针对人工智能在几何问题求解中面临的数学推理挑战,提出了一种新的框架DFE-GPS,通过结合视觉特征、几何形式语言和自然语言表示来改善现有模型在理解几何图形上的能力。我们的主要发现是,使用新开发的合成数据集SynthGeo228K后,模型在几何问题解决方面表现显著提升,扩展了其在开放式任务中的应用。
Sep, 2024
本研究解决了多模态大型语言模型在理解任意参考视觉提示时的效率问题,通过提出EAGLE模型,能够有效减少训练工作。该方法将参考视觉提示作为空间概念嵌入至模型中,从而提升了模型的语义理解能力,并结合几何无关学习的理念,验证了其在多样化参考提示场景中的卓越表现。
Sep, 2024
本研究针对现有多模态大型语言模型(MLLM)在处理任意指称视觉提示时的有效性不足和架构冗余问题,提出了EAGLE方法,显著减少了训练成本。EAGLE通过保持指称视觉提示的原始格式,并引入空间概念嵌入,从而提升了模型对特定空间区域的语义理解,展示了在多样化实际场景中的高效表现。
Sep, 2024