内视力：基于模拟的基础语言模型推理

Oct, 2022

内视力：基于模拟的基础语言模型推理

Mind's Eye: Grounded Language Model Reasoning through Simulation

Ruibo Liu, Jason Wei, Shixiang Shane Gu, Te-Yen Wu, Soroush Vosoughi...

TL;DR研究通过使用计算物理引擎作为输入，将语言模型中的推理过程与现实社会有机结合，让模型具有更加精准有效的推理能力，以达到人类与 AI 之间成功和有效的交流。该研究的实验证明 Mind's Eye 可以在物理对齐基准测试中改善模型推理能力 27.9％（零击中率）和 46.0％（少量击中率），较小的语言模型具有 Mind's Eye 也能获得类似的性能。

Abstract

Successful and effective communication between humans and ai relies on a shared experience of the world. By training solely on written text, current language models (LMs) miss the grounded experience of humans in

ai language models grounding reasoning physics engine

发现论文，激发创造

通过心灵之眼理论：用多模态视频和大型语言模型阅读思维

大型多模态模型能否拥有类似人类的情感和社交推理能力，以及这是如何实现的？近期研究已经发现了大型语言模型的浮现理论推理能力。通过解决各种基于文本的涉及认知理论（如人类信念、欲望和意图）的任务，语言模型能够推理人们的心理状态。然而，人类的推理能力通常基于动态场景和时间。因此，我们认为视频是一个检验时空认知推理能力的新媒介。我们通过使用视频和文本开发了一个基于多模态语言模型的推理管道，实现了对涉及社交和情感推理内容的视频的显性推理。同时，我们还通过检索回答推理问题所需的关键帧来启用显性认知推理，揭示了多模态语言模型如何推理认知理论。

Jun, 2024

关于借助语言模型实现具体任务计划的研究

本研究旨在探讨语言模型是否具有生成具体执行计划的能力，并针对该问题提出了一个新的问题解决方案: G-PlanET。通过将高级目标和特定环境中物体的数据表输入，我们设计了一种迭代解码策略，并使用新的度量标准 KAS 评估模型执行计划的质量，实验结果表明，将环境信息编码为表格，迭代解码策略可以显著提高语言模型的表现。

Aug, 2022

在模拟的 3D 世界中的基于场景语言学习

通过增强和无监督学习，训练具备最少先验知识的机器人在仿真 3D 环境中理解自然语言指令，将语言符号与周围物理环境的感知表示和相关的行动序列联系起来，实现语言含义的压缩和提取，从而揭示出关于语言基于感知概念的本质和潜力。

Jun, 2017

通过语言模型进行规划的具身推理

研究了大型语言模型在具身化场景下的规划能力，通过自然语言反馈的方式，提高对机器人控制场景的理解和指导完成任务的效果。

Jul, 2022

Steve-Eye: 使用视觉感知为基于 LLM 的具身化智能体装备开放世界

本文提出了 Steve-Eye，一个端到端训练的大型多模态模型，用于解决大语言模型在直观理解环境和生成易于理解响应方面的挑战，并基于广泛实验验证了该模型在战略行为和规划方面的能力。

Oct, 2023

语言模型遇上世界模型：具身体验增强语言模型

本文提出了一种通过 fine-tuning 使用世界模型使大型自然语言模型获得基于物理环境的知识和技能，以帮助解决模型在简单的推理和规划中的局限性，实验证明这种方法能够提高基本的 LM 在 18 项下游任务上的性能，尤其是 1.3B 和 6B 的小 LM。

May, 2023

思维可视化激发大型语言模型的空间推理

大型语言模型中的空间推理能力相对较少探索，在本文中，我们提出了一种名为 Thought 可视化的方法，通过可视化语言模型的推理轨迹来引导后续的推理步骤，实验证明 Thought 可视化显著增强了语言模型的空间推理能力，并且在多跳空间推理任务中表现优于现有的多模态大型语言模型。

Apr, 2024

在二维环境中的交互式基于语境的语言习得和推理

基于 2D 迷宫世界，通过虚拟代理学习语言的模型，将语言的生成与理解与其他计算流程分离，从而成功地解决新单词出现的问题。模型可以解释人类可理解的中间输出结果，大幅优于其他五种比较方法。

Jan, 2018

ROME：评估预训练的视觉 - 语言模型在超越视觉常识推理上的表现

评估最新的预训练视觉 - 语言模型在解释反直觉情境方面的推理能力，揭示大多数模型在此方面仍然相当无能。

Oct, 2023

利用语言模型理解语言模型中的社交推理

本研究通过创建一个新的社交推理基准，即 BigToM，来评估大型语言模型的社交推理能力，发现 GPT4 具有反映人类推理模式的理论思维能力，但不够可靠，而其他 LLM 则表现较差。

Jun, 2023