识别学习运动技能的重要感觉反馈
我们提出了一种使用基于 Transformer 的模型从配 proprioceptive 信息和高维度深度传感器输入中学习的强化学习(RL)来解决四足动物行走任务的方法。
Jul, 2021
利用计算神经科学分析机器人运动控制的人口群体行为,研究表明在强迫状态和拓扑结构之下,循环状态动力学的结构化和低维的特点与类人研究吻合,振荡系统在可控的神经扰动下,更强地依赖感官输入。
Jun, 2023
本文提出了一种新的机器人操作方法,该方法利用了物体本身的运动学习,通过使用物理模拟器中的对象运动策略生成辅助奖励,称为模拟运动演示奖励(SLDRs),该方法可以在不需要人类演示或昂贵成本的情况下,通过强化学习来掌握机器人操作技能,从而实现多物体堆放和非刚性物体操作等任务的更高成功率和更快学习。
Oct, 2019
本文提出了一种利用深度强化学习技术自动化四足机器人运动设计过程的系统,能够从简单的奖励信号中学习四足运动,并可提供开环参考进行学习过程的控制,采用系统辨识来改进物理模拟器,利用物理环境随机与扰动设计控制器,并在物理模拟器中进行评估,成功在现实世界中部署。
Apr, 2018
本文探究了深度强化学习与基于物理原理的动画学习中的 RL 环境设计对其表现的影响及如何通过状态表示、奖励结构等因素的选择优化其效果,特别强调其对学习连续动作控制问题的应用的重要性。
Oct, 2020
为了处理不同的地形和模仿智能行为,学习四肢机器人熟练行走策略变得越来越受欢迎。尽管对于人类和智能动物来说这是一种自然行为,但在学习社区中,对于操纵移动物体和通过腿部进行运动(如踢足球)的联合操作却受到了少量关注。解决这个多任务问题的关键挑战是根据操纵对象的状态和目标来推断行走的目标,这两者之间的隐含关系很难直接从训练经验中捕捉。我们提议添加一个反馈控制模块,以准确计算所需的身体级运动,并将输出作为关节级行走监督显式地使用。我们进一步利用改进的球体动态模型、扩展的上下文辅助估计器和综合的球体观察器来促进将在仿真中学习的策略转化到现实世界中。我们观察到我们的学习方案不仅可以使策略网络更快地收敛,还可以使足球机器人在平坦表面上执行精巧的运动,如急转弯和转向,这是以前方法所缺乏的。视频和代码可在此网址获得。
Mar, 2024
本文研究了用于高维状态描述的深度强化学习,并比较了不同的动作参数表示对学习难度、策略鲁棒性、运动质量和策略查询率的影响。从多个平面关节图形和多个步态的步态循环模仿任务的结果来看,本文表明较高级别的动作参数化所提供的本地反馈可以显著影响策略的学习、鲁棒性和质量。
Nov, 2016
通过使用状态条件生成模型在技能空间中加速探索,同时提出低层次的剩余策略来适应未知的任务变化,从而在与先前工作的比较中显着加快了探索速度,并跨四个不同于那些用于构建技能空间的具有挑战性的操作任务进行了验证。
Nov, 2022