多样性即是你所需:无需奖励函数学习技能
本篇研究提出了一种名为'Diverse Successive Policies'的新型方法,应用在强化学习中以发掘具有多样性的政策集合,进而实现探索、迁移、层级和鲁棒性等目标。该方法通过将问题形式化为一种约束马尔科夫决策过程(CMDP)实现最大化多样性、最小化多样性奖励之间的相关性以及保证策略的近最优性。研究还发现了最近提出的鲁棒性奖励和差异奖励对实验的灵敏度以及收敛方向等诸多限制,进而提出了新型的多样性奖励机制应对此类限制。实验结果表明,该多样性奖励机制能够有效发现不同区分度的行为模式。
Jun, 2021
本文介绍了一种针对强化学习中 reward 缺失问题的无监督学习方法,使用互信息框架,引入了 UPSIDE 方法,解决了探索空间覆盖度和导向性之间的平衡问题,通过学习一组多样化的技能,将其组成可不断扩展的树来解决稀疏 reward 任务。在多个导航和控制任务中通过 UPSIDE 方法学习的技能比现有基准表现更好。
Oct, 2021
通过在8种最先进的方法上进行广泛的实证评估,本文证明了Quality Diversity (QD) 方法是技能发现的一种有竞争力的替代方案,既可以提供相同甚至更好的性能,而且对超参数更不敏感且可扩展性更高。
Oct, 2022
本文提出了一种由人类辅助训练的学习机制——“受控多样性和偏好学习”,以确保学到的技能不仅是多样的,而且符合人类期望,在2D导航和Mujoco环境中得到了验证。
Mar, 2023
本文提出了一种基于对比学习的无监督技能发现方法,通过得到相似的行为来表征同一种技能, 并使得不同技能产生不同的行为,同时增加状态熵以获得更好的状态覆盖率,实验结果表明,该方法能够产生各种远程技能,并在下游任务中达到有竞争力的表现。
May, 2023
本文提出了一种称为DISCS的学习方法,通过最大化技能和状态间的互信息,学习一种可能的无数不同技能,其中每一个技能对应于球面上的连续值,并且通过在MuJoCo Ant机器人控制环境中的实验显示,DISCS可以比其他方法学习到更多元化的技能。
May, 2023
在无奖励环境中研究多样化技能发现,使用内在奖励和一个通过轨迹预测技能的判别器进行技能的相互训练,通过使用所有对组合的判别器、新颖的内在奖励函数和辍学正则化技术的方式,取代了标准的一对多(softmax)判别器,所提出的组合方法命名为APART,在简单的网格环境中比以前的方法大大减少了样本数量,研究探究了更简单的算法,通过改变VIC、重新调整内在奖励和调整softmax判别器的温度来实现最大技能,我们相信我们的研究结果揭示了强化学习中技能发现算法成功的关键因素。
Aug, 2023
为了解决质量和多样性冲突的问题,论文提出了一种对比的多目标技能发现方法,通过更合理的互信息估计和动态加权的内在奖励来平衡发现行为的质量和多样性,并在挑战性机器人行为发现任务中展示了优秀的性能。
Sep, 2023