efficient exploration is a long-standing problem in sensorimotor learning.
Major advances have been demonstrated in noise-free, non-stochastic domains
such as video games and simulation. However, most of these fo
论文提出了一种高效的 Model-Based Active eXploration (MAX) 算法用于强化学习中的有效探索,该算法使用前向模型的集合来规划观察新事件的行为,优化代理行为,通过基于贝叶斯的探索估计集合成员之间的未来预测差异衡量新颖性,实验证明在半随机离散环境中 MAX 比强基线算法至少高效一个数量级,能够扩展到高维连续环境。
本文提出了一种协作对抗式学习方法,用于从包含不同状态转移模式的未标记数据集中最大化它们的可辨识度,获得可控技能集的单一多才策略。实验结果表明,借助生成式对抗模仿学习框架中的无监督技能发现,出现了成功完成任务的新颖有用技能。最后,在名为 Solo 8 的敏捷四足机器人上测试了所获得的多才多艺策略,并呈现出编码在演示中的各种不同技能的忠实复制。