朝向基于场景的社交推理

Jun, 2023

Toward Grounded Social Reasoning

Minae Kwon, Hengyuan Hu, Vivek Myers, Siddharth Karamcheti, Anca Dragan...

TL;DR文章提出了一种使用大型语言模型和视觉语言模型来帮助机器人主动感知环境，执行基于社会情境的推理的方法，并通过发布 MessySurfaces 数据集评估了该框架，发现使用了主动感知的基线平均提高了 12.9％，机器人实验的平均提高了 15％。

Abstract

Consider a robot tasked with tidying a desk with a meticulously constructed Lego sports car. A human may recognize that it is not socially appropriate to disassemble the sports car and put it away as part of the "tidying". How can a →

robot social reasoning active perception messysurfaces dataset grounded social reasoning

发现论文，激发创造

以行动示范为导向，而非口头指示：将自然语言融入机器人可用性

利用预训练技能约束自然语言模型以便进行真实世界的物理执行，从而实现语言驱动机器人。

Apr, 2022

基于接地模型指导机器人控制的文本生成

本论文提出了一种利用大型语言模型进行机器人交互的方法，用于解决理解语义知识和实现机器人任务之间的矛盾问题，其中引入了基于概率过滤的策略来采用语言模型和基于物理环境的模型两者的优势，通过指导解码策略可以实现复杂的机器人长视程任务。

Mar, 2023

利用视觉可供性在非结构化数据上进行语言基础建设

本文提出了一种基于视觉语言感知模型的新方法，可以在真实世界中从非结构化、离线、无需重置的数据中高效地学习通用的、以语言为条件的机器人技能，实验表明该方法配合 LLMS 可以在真实世界中完成长期、多层次的任务，并比以往方法少使用一个数量级的数据。

Oct, 2022

关于借助语言模型实现具体任务计划的研究

本研究旨在探讨语言模型是否具有生成具体执行计划的能力，并针对该问题提出了一个新的问题解决方案: G-PlanET。通过将高级目标和特定环境中物体的数据表输入，我们设计了一种迭代解码策略，并使用新的度量标准 KAS 评估模型执行计划的质量，实验结果表明，将环境信息编码为表格，迭代解码策略可以显著提高语言模型的表现。

Aug, 2022

利用大型语言和视觉模型通过程序生成的三维场景表示探索未知环境的机器人

利用大型语言模型（LLMs）和大型视觉语言模型（LVLMs）的能力，本研究提出了一个综合框架，模仿人类认知以实现对象目标导航问题的解决，通过关注、感知和存储任务特定信息，并生成相应计划。为了有效表示机器人周围的环境，提出使用语义丰富的 3D 场景模块化表示，并引入基于 LLM 的修剪策略以消除无关的目标特定信息。

Mar, 2024

将常识推理和知识获取结合，为机器人的深度学习提供指导

该论文提出了一种基于认知系统的深度网络模型，以探索深度网络模型内部表示和推理机制的知识表示、推理和学习挑战，并通过使用空间关系的接地和递增式的学习，以及基于非单调逻辑推理和基础常识域知识的决策，实现对场景中物品遮挡和稳定性的推理，通过识别与任务相关的图像区域训练深度网络模型来提高决策的可靠性和减少相关的训练工作量。

Jan, 2022

物理基础的视觉语言模型用于机器人操作

通过在 36.9K 个常见家居物体的数据集 PhysObjects 上针对视觉外观捕捉人类先验知识，我们提出了一种基于物理概念的视觉语言模型（VLM），并将其与基于大语言模型的机器人规划器结合使用，取得了在涉及与物理物体概念推理相关的任务中相比不使用物理概念的基线模型实现了改进的规划性能的结果。此外，在真实机器人上展示了物理概念视觉语言模型的好处，提高了任务成功率。

Sep, 2023

使用视觉 - 语言模型进行四足机器人适应的常识推理

通过利用视觉 - 语言模型（VLM）的通识推理能力，以及 VLM 在上下文适应和多技能规划方面的关键组件，我们提出了 VLM-Predictive Control（VLM-PC）系统，能够帮助双足机器人在处理困难、模糊的情况下做出自适应行为选择，从而使机器人能够在多样复杂的情景中自主感知、导航和行动，而无需环境特定的工程或人类引导。

Jul, 2024

面向开放世界抓取的大规模视觉语言模型

通过结合语言模型 (vision-language models)、分割模型和抓取综合模型，提出了一个能够在任何场景中理解、规划和执行物体抓取的开放世界抓取系统 (OWG)，通过视觉提示机制，借助于开放式自由语言的引导实现零样本应用，展示了该系统在杂乱室内场景数据集和仿真环境、硬件实验中相对于以往的有监督和零样本语言模型方法具有优越性能。

Jun, 2024

与环境对话：使用大型语言模型进行交互式多模态感知

在机器人的交互感知中，使用预先训练的大型语言模型（LLMs）作为交互感知框架，并将其应用于决策问题以及规划多模态环境中的任务执行，这样可以通过感知来指导认知行为和高层次的决策规划，这种方法可以显著提高任务完成的准确性和效率。

Mar, 2023