语言模型能够理解物理概念吗？

May, 2023

Can Language Models Understand Physical Concepts?

Lei Li, Jingjing Xu, Qingxiu Dong, Ce Zheng, Qi Liu...

TL;DR该论文研究了自然语言模型是否能理解物理概念，并设计了一个基准测试 VEC 来探究视觉和具身概念。结果表明，视觉增强的语言模型，如 CLIP 和 BLIP，能够理解具身概念，而通过蒸馏方法将具身知识转移给 LMs 的性能也相当可观。

Abstract

language models~(LMs) gradually become general-purpose interfaces in the interactive and embodied world, where the understanding of physical concepts is an essential prerequisite. However, it is not yet clear whe

language models physical concepts visual concepts embodied concepts distillation method

发现论文，激发创造

物理基础的视觉语言模型用于机器人操作

通过在 36.9K 个常见家居物体的数据集 PhysObjects 上针对视觉外观捕捉人类先验知识，我们提出了一种基于物理概念的视觉语言模型（VLM），并将其与基于大语言模型的机器人规划器结合使用，取得了在涉及与物理物体概念推理相关的任务中相比不使用物理概念的基线模型实现了改进的规划性能的结果。此外，在真实机器人上展示了物理概念视觉语言模型的好处，提高了任务成功率。

Sep, 2023

语言模型遇上世界模型：具身体验增强语言模型

本文提出了一种通过 fine-tuning 使用世界模型使大型自然语言模型获得基于物理环境的知识和技能，以帮助解决模型在简单的推理和规划中的局限性，实验证明这种方法能够提高基本的 LM 在 18 项下游任务上的性能，尤其是 1.3B 和 6B 的小 LM。

May, 2023

概念表示需要具身吗？来自大型语言模型的洞见

该论文比较人类和 ChatGPT（GPT-3.5 和 GPT-4）在各种词汇概念特征或维度上的词汇概念表示，结果表明 LLM 可以在某些抽象维度上表现得与人类相似，但在感官和运动领域，GPT-3.5 表现较弱，而 GPT-4 在这方面有了显著进展，但仍然存在一些不足。此外，研究还发现，GPT-4 的进步主要源于其在视觉领域的训练。研究还发现，某些概念表示的方面似乎与感官能力相互独立，但其他方面似乎需要它们。

May, 2023

在大规模语言和视觉模型中探索空间模式直觉

尽管大型语言模型在人工智能研究中广泛使用，但其在模型具象问题上的探讨仍未得到充分挖掘，这使它们与感知直接影响物理动作的机器人具象系统相区别。本研究通过对人类关于语言基本空间构建模块的内隐直觉是否被大型语言模型有效捕捉来进行了调查。我们借鉴早期感知运动经验中发展的空间认知基础的见解，通过再现三个心理语言学实验来引导我们的探索。令人惊讶的是，模型输出与人类反应之间出现了相关性，揭示了在没有具体联系到具象经验的情况下的适应能力。值得注意的区别包括极化的语言模型反应和视觉语言模型中降低的相关性。本研究对于深入理解语言、空间经验和大型语言模型所进行的计算之间的相互作用做出了贡献。

Feb, 2024

探究大型视觉语言模型的概念理解

本文介绍了一种新的框架，用于探究和提升视觉语言模型的关系、组合和上下文理解。我们提出了一个基准数据集来检测内容理解的三个方面。我们实验了 5 种流行的模型，并发现它们大多数难以展示出概念理解。然而，我们发现交叉注意力可以帮助学习概念理解，并提出了一种新的微调技术，以奖励我们提出的三个概念理解措施。我们希望这些基准测试可以帮助社区评估和改进大型视觉语言模型的概念理解能力。

Apr, 2023

多模态大语言模型自然形成类人对象概念表示

通过分析行为和神经成像数据，本研究揭示了大型语言模型（LLMs）中的对象概念表示与人类的相关性，证明了 LLMs 和多模式 LLMs 已经发展出类似于人类的概念性对象表示，该研究推动了对机器智能的理解并为开发更类似人类的人工认知系统提供了参考。

Jul, 2024

VIPHY：探究 “可见” 的物理常识知识

本研究使用自动管道方法研究了视觉 - 语言模型在获取 “可见” 物理知识方面的能力，并发现这些模型在物体颜色，大小和空间三个方面的表现与人类存在明显差距。而采用预训练的基线模型 (CapBERT) 可以取得更好的表现。

Sep, 2022

MyVLM: 为用户特定查询个性化 VLM

对于个性化视觉 - 语言模型，我们探索了增加外部概念头和中间特征空间中的概念嵌入来实现对用户提供的概念的识别和自然整合，并将其应用于个性化图像字幕生成和个性化视觉问答，结果表明模型可以推广到学习概念的未见图像，并保持在无关输入上的模型行为。

Mar, 2024

POSQA：使用大小比较来探究 LLMs 的世界模型

通过提出 POSQA 数据集，我们研究了最新的大型语言模型的体现性理解，并发现即使是目前最大的语言模型在零样本设置下表现不佳，进一步通过高级提示技术和外部知识增强来提升它们的性能。我们调查了他们对真实世界理解的主要来源以及提示格式的影响，结果表明基于文本数据形成的语言模型对提示的表面形式容易受到欺骗和困惑，导致其与人类行为的契合性降低。

Oct, 2023

将互联网规模的视觉 - 语言模型化为具体智能体

本文提出了一种利用预训练的视觉语言模型（VLMs）来监督具有目的地行动的体验型智能体从而让其学会与不同类别的对象交互的新型方式。通过少量提示和后见之明体验回放（HER）技术，我们可以使体验型智能体学习抽象类别的成员资格以及与特定任务相关的语境，在利用因特网规模的 VLMs 的通用语言基础的同时完成语言建模。

Jan, 2023