朝向基于场景的社交推理
本论文提出了一种利用大型语言模型进行机器人交互的方法,用于解决理解语义知识和实现机器人任务之间的矛盾问题,其中引入了基于概率过滤的策略来采用语言模型和基于物理环境的模型两者的优势,通过指导解码策略可以实现复杂的机器人长视程任务。
Mar, 2023
本文提出了一种基于视觉语言感知模型的新方法,可以在真实世界中从非结构化、离线、无需重置的数据中高效地学习通用的、以语言为条件的机器人技能,实验表明该方法配合 LLMS 可以在真实世界中完成长期、多层次的任务,并比以往方法少使用一个数量级的数据。
Oct, 2022
本研究旨在探讨语言模型是否具有生成具体执行计划的能力,并针对该问题提出了一个新的问题解决方案: G-PlanET。通过将高级目标和特定环境中物体的数据表输入,我们设计了一种迭代解码策略,并使用新的度量标准 KAS 评估模型执行计划的质量,实验结果表明,将环境信息编码为表格,迭代解码策略可以显著提高语言模型的表现。
Aug, 2022
利用大型语言模型(LLMs)和大型视觉语言模型(LVLMs)的能力,本研究提出了一个综合框架,模仿人类认知以实现对象目标导航问题的解决,通过关注、感知和存储任务特定信息,并生成相应计划。为了有效表示机器人周围的环境,提出使用语义丰富的 3D 场景模块化表示,并引入基于 LLM 的修剪策略以消除无关的目标特定信息。
Mar, 2024
该论文提出了一种基于认知系统的深度网络模型,以探索深度网络模型内部表示和推理机制的知识表示、推理和学习挑战,并通过使用空间关系的接地和递增式的学习,以及基于非单调逻辑推理和基础常识域知识的决策,实现对场景中物品遮挡和稳定性的推理,通过识别与任务相关的图像区域训练深度网络模型来提高决策的可靠性和减少相关的训练工作量。
Jan, 2022
通过在 36.9K 个常见家居物体的数据集 PhysObjects 上针对视觉外观捕捉人类先验知识,我们提出了一种基于物理概念的视觉语言模型(VLM),并将其与基于大语言模型的机器人规划器结合使用,取得了在涉及与物理物体概念推理相关的任务中相比不使用物理概念的基线模型实现了改进的规划性能的结果。此外,在真实机器人上展示了物理概念视觉语言模型的好处,提高了任务成功率。
Sep, 2023
通过利用视觉 - 语言模型(VLM)的通识推理能力,以及 VLM 在上下文适应和多技能规划方面的关键组件,我们提出了 VLM-Predictive Control(VLM-PC)系统,能够帮助双足机器人在处理困难、模糊的情况下做出自适应行为选择,从而使机器人能够在多样复杂的情景中自主感知、导航和行动,而无需环境特定的工程或人类引导。
Jul, 2024
通过结合语言模型 (vision-language models)、分割模型和抓取综合模型,提出了一个能够在任何场景中理解、规划和执行物体抓取的开放世界抓取系统 (OWG),通过视觉提示机制,借助于开放式自由语言的引导实现零样本应用,展示了该系统在杂乱室内场景数据集和仿真环境、硬件实验中相对于以往的有监督和零样本语言模型方法具有优越性能。
Jun, 2024
在机器人的交互感知中,使用预先训练的大型语言模型(LLMs)作为交互感知框架,并将其应用于决策问题以及规划多模态环境中的任务执行,这样可以通过感知来指导认知行为和高层次的决策规划,这种方法可以显著提高任务完成的准确性和效率。
Mar, 2023