GRASP: 用于评估多模态语言模型中语言引用与情境物理理解的新型基准测试

Nov, 2023

GRASP: 用于评估多模态语言模型中语言引用与情境物理理解的新型基准测试

GRASP: A novel benchmark for evaluating language GRounding And Situated Physics understanding in multimodal language models

PDF

Serwan Jassim, Mario Holubar, Annika Richter, Cornelius Wolff, Xenia Ohmer...

TL;DR该研究提出 GRASP，这是一个用于评估基于视频多模式大型语言模型（LLMs）的语言理解和物理理解能力的新的基准。通过利用 Unity 模拟技术，这一评估通过两级方法完成。初始级别测试语言理解能力，通过评估模型将简单文本描述与视觉信息联系起来的能力。第二级别评估模型对直观物理原理（如物体的永恒性和连续性）的理解能力。除了发布基准系统，研究还使用它来评估几种最新的多模式 LLMs。我们的评估揭示了当前模型在语言理解和直观物理方面的重大缺陷。这些发现的限制凸显了像 GRASP 这样的基准对于监测未来模型在这些能力上的进展的重要性。

Abstract

This paper presents grasp, a novel benchmark to evaluate the language grounding and physical understanding capabilities of video-based mul

grasp benchmark language grounding physical understanding multimodal large language models

发现论文，激发创造

GRASP：用于评估常识空间推理的基于网格的基准测试

利用 16,000 个基于网格的环境构建了一个名为 GRASP 的大规模基准，用于对比经典基线方法和先进的 LLMs（如 GPT-3.5-Turbo 和 GPT-4o）在空间推理场景中解决能量收集问题的表现。实验结果表明，即使是这些先进的 LLMs 也很难一直实现令人满意的解决方案。

Jul, 2024

PhyGrasp: 基于物理信息的大型多模态模型的机器人抓取泛化

将物理常识推理融入机器人操作，通过 PhyGrasp 模型结合自然语言和 3D 点云输入，实现对对象的物理属性准确评估和最优抓取位姿决策。模型的语言理解能力使其能够解释人类指令，并生成符合人类偏好的抓取位姿。在长尾场景中，PhyGrasp 取得了最先进的性能，成功率比 GraspNet 提高了约 10%。

Feb, 2024

GSR-BENCH: 通过多模态的 LLM 评估接地式空间推理的基准

这篇研究报告通过扩展 What'sUp 数据集，提出了一个全面的评估方法用于空间关系理解，并对 27 种不同模型的性能进行了评估，其中包括早期的视觉语言模型（VLMs）和三类多模态语言模型（MLLMs），以验证其在任务中的表现和研究其规模的变化规律。

Jun, 2024

SemGrasp: 通过语言对齐离散化生成语义抓取

本文提出了一种基于语义的抓取生成方法 SemGrasp，并且介绍了一个将目标、抓取和语言整合到一个统一的语义空间中的多模态大型语言模型 (Multimodal Large Language Model, MLLM)。实验结果表明，SemGrasp 能够高效地生成符合语言意图的自然人类抓取。

Apr, 2024

面向开放世界抓取的大规模视觉语言模型

通过结合语言模型 (vision-language models)、分割模型和抓取综合模型，提出了一个能够在任何场景中理解、规划和执行物体抓取的开放世界抓取系统 (OWG)，通过视觉提示机制，借助于开放式自由语言的引导实现零样本应用，展示了该系统在杂乱室内场景数据集和仿真环境、硬件实验中相对于以往的有监督和零样本语言模型方法具有优越性能。

Jun, 2024

关于借助语言模型实现具体任务计划的研究

本研究旨在探讨语言模型是否具有生成具体执行计划的能力，并针对该问题提出了一个新的问题解决方案: G-PlanET。通过将高级目标和特定环境中物体的数据表输入，我们设计了一种迭代解码策略，并使用新的度量标准 KAS 评估模型执行计划的质量，实验结果表明，将环境信息编码为表格，迭代解码策略可以显著提高语言模型的表现。

Aug, 2022

3D-GRAND: 为 3D-LLMs 提供更好的定位和更少的幻觉

通过引入具有 40,087 个家庭场景和 6.2 百万个密集绑定的场景语言指令的 3D-GRAND，本文展示了对 3D-LLMs 中的指令调优在地面设置和降低幻觉方面的显著增强。另外，该文还提出了一个全面的基准测试 3D-POPE，以系统地评估 3D-LLMs 中的幻觉，并促进未来模型之间的公正比较。我们的实验强调了数据集规模和 3D-LLM 性能之间的扩展效应，强调了大规模 3D 文本数据集在推进具身化 AI 研究中的关键作用。值得注意的是，我们的结果证明了有效的从模拟到真实的转化存在早期信号，表明在大规模合成数据上训练的模型在真实世界的 3D 扫描中表现良好。通过 3D-GRAND 和 3D-POPE，我们的目标是为具身化 AI 社区提供必要的资源和见解，从而为更可靠和更好地基于地面的 3D-LLMs 做好准备。

Jun, 2024

基于场景语境的系统化概括语言理解基准测试

本文介绍了一个新的基准测试 gSCAN，用于评估位于语言理解中的组成泛化，在语言描述中使用诸如 “在摩天轮旁边向粉色布朗托蜥蜴问候” 等常见词汇，并将其用于语言理解任务。测试发现，在需要系统的组成规则的情况下，强大的多模态基线模型和最先进的组成方法在大多数情况下都会明显地失败。

Mar, 2020

Kosmos-2：将多模态大型语言模型与世界接轨

Kosmos-2 是一种多模态大型语言模型，其新功能包括感知物体描述并将文本与视觉世界联系起来，此工作对于实现人工通用智能是关键的一步，可以通过多模态语料库和 GrIT 数据集进行众多任务的评估和训练。

Jun, 2023

ShapeWorld - 一种新的多模态语言理解测试方法

介绍了一种新的框架，用于评估多模态深度学习模型的语言理解和泛化能力，该方法可控制详细的数据内容，在四个不同任务上应用于视觉问答模型，通过开源我们的框架，我们希望刺激多模态语言理解领域的进步。

Apr, 2017