BriefGPT.xyz
Ask
alpha
关键词
goal-reaching policies
搜索结果 - 2
通过迭代监督学习学习实现目标
本文介绍了一种强化学习算法,利用模仿学习从零开始获得目标达成策略,而不需要专家演示或价值函数,并通过该算法在多个基准任务中达到了比现有强化学习算法更好的目标达成性能和鲁棒性。
PDF
5 years ago
ICML
Skew-Fit: 状态覆盖式自监督强化学习
本文提出一种形式化的目标探索目标,用于最大化状态覆盖,通过学习最大熵目标分布的 Skew-Fit 算法,与现有目标实现方法相结合,能够在开源的视觉目标达成任务中优于以前的方法,同时让真实世界中的机器人从像素开始、无需手动设计奖励函数,学会如
→
PDF
5 years ago
Prev
Next