快慢思维的语言条件下的机器人操作

Jan, 2024

快慢思维的语言条件下的机器人操作

Language-Conditioned Robotic Manipulation with Fast and Slow Thinking

Minjie Zhu, Yichen Zhu, Jinming Li, Junjie Wen, Zhiyuan Xu...

TL;DR通过模仿人类认知结构，我们引入了一种名为 RFST 的框架，该框架利用语言指令对任务进行分类并基于指令类型做出决策，包含指令鉴别器和一个与策略网络相匹配的精调视觉语言模型，可以识别用户意图或执行推理任务，我们的实验结果验证了我们的方法在需要意图识别和推理的复杂任务中的出色表现。

Abstract

The language-conditioned robotic manipulation aims to transfer natural language instructions into executable actions, from simple pick-and-place to tasks requiring intent recognition and visual reasoning. Inspired by the dual process theory in cognitive science, which suggests two para

language-conditioned robotic manipulation rfst fast and slow thinking instruction discriminator fine-tuned vision language model

发现论文，激发创造

语言条件下的机器人操作任务模仿学习

这篇研究论文介绍了一种将自然语言引入模仿学习中的方法，可以让专家在提供动作演示的同时，提供自然语言的描述。通过融合语言、知觉和动作的关系，实现了更加精细的控制，降低了场景的模糊度。在七自由度机械臂控制任务上的模拟实验表明，此方法可有效学习自然语言条件下的机器人操作策略，并与其他方法相比做出了明显改进。

Oct, 2020

语言条件下的机器人模仿学习对非结构化数据的影响因素

本研究旨在从自然语言文本中获取信息，进而训练机器人进行各种日常生活任务。我们通过探索一系列最重要的问题，来提出一种有效的机器人控制学习方法，该方法结合了分层控制、多模态变换编码器、离散潜在计划和自监督对比损失。同时，我们使用所提出的方法，成功地在机器人 CALVIN 基准测试中，超越了现有研究成果。

Apr, 2022

在受限环境中结合快速和慢速思考实现类人和高效导航

本文提出了一种基于快速 / 慢速求解器和元认知组件的通用架构，意在通过现有认知人类决策理论对 AI 系统的一些重要人类能力进行提升，并在此基础上尝试应用于基于有限环境下导航决策等方面，实验结果表明，这种决策策略组合可以大大提高系统的决策质量、资源消耗和效率。

Jan, 2022

学习神经符号程序用于语言引导机器人操控

通过一种模块化结构，使用符号推理构造深度物体中心推理模型，从而训练出一种可以执行机器人操作的模型，此模型具有优秀的通用性和端到端的可训练性。

Nov, 2022

快速而灵活：训练神经网络通过少量数据学习遵循指令

通过两阶段训练过程，我们的神经网络系统自动获得归纳偏差来学习遵循人类指令的通用结构，并能够适应新话语中的新单词。

Sep, 2018

基于语言条件的结构化数据模仿学习

通过自然语言条件化的模拟学习方法，结合像素感知、自然语言理解和多任务连续控制的神经网络，可以在无需任务或语言标签的情况下，显著提高任务成果，同时将语言注释成本降低到总数据量的不到 1％。

May, 2020

面向机器人操作的指导驱动历史感知策略

本研究提出了一种基于 Transformer 的方法来处理人类语言指令和多视角场景观察，以提高机器人的精准操作，并在 RLBench 基准测试中成功实现 74 项任务，还表现出对未曾见过变化的任务的良好泛化性能。

Sep, 2022

从离线数据和众包注释中学习语言相关机器人行为

本文研究了使用自然语言标签并结合机器人交互数据集，来学习规划机器人视觉操作任务的问题，并发现此方法在具有一定自由度的语言规划任务中表现更优秀，成功地完成了使用自然语言描述的物品移动任务。

Sep, 2021

快速与缓慢规划

通过建立一个灵感来自 Thinking Fast and Slow 的认知理论的系统架构 SOFAI，该系统可以在不同情境下解决计划问题，实现快速和慢思维，并且最终证明这种新的智能系统在问题的广泛性、解决时间和解决方案准确性等方面具有更好的表现。

Mar, 2023

DynaThink：快还是慢？一个用于大型语言模型的动态决策框架

通过引入动态决策框架，将大型语言模型 (Large language models, LLMs) 自主选择快速和缓慢推理方法，以优化效率和有效性，实验结果表明 DynaThink 相较基线方法在五个常见推理基准上更优越。

Jul, 2024