探索基于多模态推理的物理动力学失败案例

AAAIFeb, 2024

探索基于多模态推理的物理动力学失败案例

Exploring Failure Cases in Multimodal Reasoning About Physical Dynamics

Sadaf Ghaffari, Nikhil Krishnaswamy

TL;DR本文探讨了 LLMs 在情境环境中通过物理推理解决问题的能力。我们构建了一个简单的模拟环境，并展示了 LLMs 在无先验条件下对各种物体的原子世界知识的示例，但在对象操作和放置任务中未能将这些知识组合成正确的解决方案。我们还使用了 BLIP，一个经过更复杂的跨模态注意力训练的视觉语言模型，来识别该模型未能基于对象物理属性进行建模的案例。最后，我们提出了一种发现环境中相关性质的对象的方法，并提出了一种将这些知识转化回 LLM 的方法。

Abstract

In this paper, we present an exploration of llms' abilities to problem solve with physical reasoning in situated environments. We construc

llms physical reasoning situated environments object manipulation knowledge distillation

发现论文，激发创造

学习多模态环境中物理动作的影响

通过加入图像和文本等多种形式的感官信息以及使用对象的潜在表示对 LLM 进行扩展，以更好地预测动作结果，进而推广并学习物理常识推理。

Jan, 2023

物理基础的视觉语言模型用于机器人操作

通过在 36.9K 个常见家居物体的数据集 PhysObjects 上针对视觉外观捕捉人类先验知识，我们提出了一种基于物理概念的视觉语言模型（VLM），并将其与基于大语言模型的机器人规划器结合使用，取得了在涉及与物理物体概念推理相关的任务中相比不使用物理概念的基线模型实现了改进的规划性能的结果。此外，在真实机器人上展示了物理概念视觉语言模型的好处，提高了任务成功率。

Sep, 2023

SimLM：语言模型能否推断物理系统的参数？

大规模机器学习模型在语言的通用理解、翻译和生成方面的最新进展，给医学、机器人学和科学探索等多个领域带来了影响。然而，这些大语言模型因为其训练所使用的大型语料库的特点，存在无法处理一些特定问题，如高级数学。本文针对大语言模型无法进行物理任务推理的问题进行了研究，并证明了通过从物理模拟的反馈中增强它们的上下文，可以改进它们推断物理系统参数的能力，而无需重新训练。

Dec, 2023

语言模型能够理解物理概念吗？

该论文研究了自然语言模型是否能理解物理概念，并设计了一个基准测试 VEC 来探究视觉和具身概念。结果表明，视觉增强的语言模型，如 CLIP 和 BLIP，能够理解具身概念，而通过蒸馏方法将具身知识转移给 LMs 的性能也相当可观。

May, 2023

MM-PhyQA：多模态物理问题回答与多图 CoT 提示

利用现有模型对多步骤物理推理任务进行评估，通过引入多模态元素的高中级别物理问题的新数据集 MM-PhyQA，测试了包括 GPT-4 和 LLaVA 在内的多个大型语言模型的性能，并展示了基于 MI-CoT 提示技术的 LLaVA-1.5 13b 模型在测试集上的最佳结果，具有最高的 71.65% 准确率。

Apr, 2024

NEWTON：大型语言模型是否具备物理推理能力？

通过评估物理推理技能的新基准数据集 NEWTON，以及针对对象与属性的推理任务，研究发现大型语言模型在场景任务中表现出强大的推理能力，但在对象 - 属性推理方面与人类相比存在欠缺（50％对比 84％），新基准数据集 NEWTON 展示了评估和提升语言模型的潜力，为将其整合到以物理为基础的环境中铺平了道路。

Oct, 2023

语言模型遇上世界模型：具身体验增强语言模型

本文提出了一种通过 fine-tuning 使用世界模型使大型自然语言模型获得基于物理环境的知识和技能，以帮助解决模型在简单的推理和规划中的局限性，实验证明这种方法能够提高基本的 LM 在 18 项下游任务上的性能，尤其是 1.3B 和 6B 的小 LM。

May, 2023

与环境对话：使用大型语言模型进行交互式多模态感知

在机器人的交互感知中，使用预先训练的大型语言模型（LLMs）作为交互感知框架，并将其应用于决策问题以及规划多模态环境中的任务执行，这样可以通过感知来指导认知行为和高层次的决策规划，这种方法可以显著提高任务完成的准确性和效率。

Mar, 2023

通过前提删除干预探索细粒度 LLM 物理推理的极限

通过使用一个涵盖多种符号和物理子领域的精选数据集，本研究评估了语言模型在进行细粒度数学和物理推理方面的能力，发现模型的数学推理在物理语境中缺乏信息，更多地倾向于逆向工程解决方案。

Apr, 2024

低限制机制的物理模拟能力

大型语言模型结合计算物理学和编程能力，能够模拟和预测物理世界，但目前的最先进模型在计算物理问题上仍具有显著的失败模式和改进空间。

Dec, 2023