BriefGPT.xyz
Ask
alpha
关键词
goal-conditioned policy
搜索结果 - 4
Track2Act: 从互联网视频预测点轨迹实现多样化的零射击机器人操控
通过使用网络视频进行预测性互动计划的学习,结合机器人在真实世界中的任务无关转换,以及通过少量具体示范进行训练的闭环策略预测残余动作,我们提出了一种可扩展学习的路径预测方法,实现了任务零 - shot 机器人操作,并在未见任务、对象和场景上呈
→
PDF
2 months ago
分治学习模仿
本文介绍了一种基于序列归纳偏置的,从专家轨迹的状态中模仿复杂机器人任务并实现优化的新算法,将复杂任务拆分成较小的技能,将技能训练为 (goal-conditioned policy),以便能够逐个解决每个技能并连接技能以完成整个任务,同时证
→
PDF
2 years ago
ICML
最大熵正则化的多目标强化学习
通过加权熵的方法构建的一个新的多目标强化学习优化目标,同时配合最大熵法优化,通过比较 OpenAI Gym 的多目标机器人任务与其他基线实验,证实了该方法在性能和样本效率方面具有显著的改进。
PDF
5 years ago
无参判别奖励的无监督控制
本文提出了一种基于无人监督学习的算法,用于训练代理达成感知确定目标,通过学习目标条件化策略和目标实现奖励函数,代理人能够在没有手工奖励或专业数据的情况下掌握环境的控制方法。
PDF
6 years ago
Prev
Next