POSQA：使用大小比较来探究 LLMs 的世界模型

EMNLPOct, 2023

POSQA：使用大小比较来探究 LLMs 的世界模型

POSQA: Probe the World Models of LLMs with Size Comparisons

Chang Shu, Jiuzhou Han, Fangyu Liu, Ehsan Shareghi, Nigel Collier

TL;DR通过提出 POSQA 数据集，我们研究了最新的大型语言模型的体现性理解，并发现即使是目前最大的语言模型在零样本设置下表现不佳，进一步通过高级提示技术和外部知识增强来提升它们的性能。我们调查了他们对真实世界理解的主要来源以及提示格式的影响，结果表明基于文本数据形成的语言模型对提示的表面形式容易受到欺骗和困惑，导致其与人类行为的契合性降低。

Abstract

embodied language comprehension emphasizes that language understanding is not solely a matter of mental processing in the brain but also involves interactions with the physical and social environment. With the explosive growth of →

embodied language comprehension large language models physical object size question answering dataset prompting techniques

发现论文，激发创造

语言模型能够理解物理概念吗？

该论文研究了自然语言模型是否能理解物理概念，并设计了一个基准测试 VEC 来探究视觉和具身概念。结果表明，视觉增强的语言模型，如 CLIP 和 BLIP，能够理解具身概念，而通过蒸馏方法将具身知识转移给 LMs 的性能也相当可观。

May, 2023

语言模型遇上世界模型：具身体验增强语言模型

本文提出了一种通过 fine-tuning 使用世界模型使大型自然语言模型获得基于物理环境的知识和技能，以帮助解决模型在简单的推理和规划中的局限性，实验证明这种方法能够提高基本的 LM 在 18 项下游任务上的性能，尤其是 1.3B 和 6B 的小 LM。

May, 2023

现实环境中的语言与计算机环境中的语言：尽管模型规模更大但仍无法像人类一样理解语言

通过对三种不同模型的测试（Bard、ChatGPT-3.5 和 ChatGPT-4）以及与人类结果的比较，研究了模型大小对于语言模型性能的影响，发现模型大小的增加可以提高性能，但语言模型仍不如人类敏感。

Apr, 2024

探索多模态大型语言模型的感知限制

在多模态大型语言模型中，研究了其对小型视觉对象的感知限制，发现对象质量、大小、干扰物的位置等因素都会显著降低模型对视觉问题的回答准确性。该研究对多模态大型语言模型的感知限制进行了探索，为未来模型的感知分析提供了新的评价协议。

Feb, 2024

大型语言模型在语言学习中的口语智能

评估大语言模型在教育中的功效，特别是在口语学习领域，引入新的多选题数据集评估模型在理解和应用口语知识方面的表现，研究不同提示技术对模型性能的影响，发现模型在音韵学、语音学和第二语言习得方面具有良好的概念理解，但在解决现实世界问题的推理方面存在限制，并初步探讨了对话交流的发现。

Aug, 2023

Proximity QA：利用多模式大型语言模型进行空间接近性分析

通过提出一种新的框架，称为近距离问答（Proximity QA），我们可以增强多模态大语言模型在深度感知和相对距离分析方面的性能。

Jan, 2024

超越表面：探测不同尺度和层级的 LLaMA

本文详细分析了大型语言模型（LLMs），重点关注自然语言处理中一种重要的开源基础模型 LLaMA。通过设计选择题任务来评估 LLaMA 在高阶任务（如推理和计算）中的内在理解能力。我们水平对比不同大小的模型，垂直评估不同层次的模型，并揭示了基于设计的评估任务的几个关键而不寻常的发现：（1）在水平分析中，扩大模型规模几乎无法自动带来额外的知识或计算能力，但可以增强推理能力，特别是在数学问题解决方面，并有助于减少幻象，但只有超过一定规模阈值才能实现；（2）在垂直分析中，LLaMA 的较低层次缺乏实质性的算术和事实知识，展示了逻辑思维、多语言和认知能力，而顶层具有最大的计算能力和现实世界的知识。

Dec, 2023

用反常识情境评估物理推理能力

通过创建 CConS 数据集，我们研究物理常识如何影响语境化尺寸比较任务，并测试多个遮蔽语言模型和生成模型的能力，结果表明大型语言模型可以使用前置词推断大小关系，但他们因其固有的物理常识而无法使用动词，从而做出错误的判断

Jun, 2023

在大规模语言和视觉模型中探索空间模式直觉

尽管大型语言模型在人工智能研究中广泛使用，但其在模型具象问题上的探讨仍未得到充分挖掘，这使它们与感知直接影响物理动作的机器人具象系统相区别。本研究通过对人类关于语言基本空间构建模块的内隐直觉是否被大型语言模型有效捕捉来进行了调查。我们借鉴早期感知运动经验中发展的空间认知基础的见解，通过再现三个心理语言学实验来引导我们的探索。令人惊讶的是，模型输出与人类反应之间出现了相关性，揭示了在没有具体联系到具象经验的情况下的适应能力。值得注意的区别包括极化的语言模型反应和视觉语言模型中降低的相关性。本研究对于深入理解语言、空间经验和大型语言模型所进行的计算之间的相互作用做出了贡献。

Feb, 2024

探索基于多模态推理的物理动力学失败案例

本文探讨了 LLMs 在情境环境中通过物理推理解决问题的能力。我们构建了一个简单的模拟环境，并展示了 LLMs 在无先验条件下对各种物体的原子世界知识的示例，但在对象操作和放置任务中未能将这些知识组合成正确的解决方案。我们还使用了 BLIP，一个经过更复杂的跨模态注意力训练的视觉语言模型，来识别该模型未能基于对象物理属性进行建模的案例。最后，我们提出了一种发现环境中相关性质的对象的方法，并提出了一种将这些知识转化回 LLM 的方法。

Feb, 2024