基于遗憾的环境设计进化课程
本文提出了一个针对深度强化学习代理的新的训练循环,采用进化生成器进行进化过程生成来构建训练课程,结果表明相较于没有导向的输入,进化课程的训练优化和泛化能力均有所提高。
Jan, 2019
本文介绍了一种名为进化课程训练的新方法,以应对机器人避碰中经常出现的一些挑战,包括在结构化环境中适应多种行人,本方法能够提高深度强化学习模型在此类复杂场景中的成功率和降低平均碰撞率。
Jun, 2023
该论文介绍了一种称为无监督环境设计(UED)的方法,通过自动生成无限的训练环境序列或课程以匹配或超过真实世界的复杂性,从而实现深度强化学习代理在鲜有环境示例中表现出显著改进的鲁棒性和泛化能力,这些自生成的环境课程为不断生成和掌握自主设计的额外挑战的开放式学习系统提供了有希望的路径。
Dec, 2023
通过分析元训练分布的特征对学习策略的泛化性能的影响,并结合无监督环境设计的思想,提出一种通过环境设计获得的通用强化学习优化器的新方法(GROOVE),该方法在一系列实验中展现了优于现有算法的泛化能力,并将算法遗憾(AR)作为环境设计中的关键组成部分加以评估。我们认为这一方法是朝着实现真正通用能解决各种现实环境的强化学习算法的一步。
Oct, 2023
本文研究了一种基于精度要求自适应选择的自动课程学习的新形式。使用基于 Deep Deterministic Policy Gradient 算法的强化学习代理和解决 Reacher 环境,我们首先展示了随机采样不同精度要求训练的代理比一直很精确的代理学习更加高效;然后,我们展示了基于局部能力进度的自适应精度要求选择可以自动生成一个难度不断递增的课程,从而提高学习效率。
Jun, 2018
本研究提出了一种进化人口课程学习模式 (EPC),以解决在多智能体游戏中训练大型人口的问题,采用进化方式解决利益不一致问题和保留每个阶段的多个智能体组以优化其适应性。并将 EPC 应用于 MADDPG 算法中,实验结果表明本方法在多智能体增长的情况下能够始终优于基准算法。
Mar, 2020
研究探讨了如何在动态的环境下使用自动生成的任务大纲来改善智能体的效果,介绍了使用目标的有效性、可行性和覆盖面的考虑来构建有用的任务大纲的新技术,并在 2D 和 3D 环境中展示了成功应用。
Sep, 2019
该论文介绍了一种名为参数化环境响应模型(PERM)的方法,该方法可以根据学生的当前能力将环境的难度匹配到一个合适的 “接受挑战的区域”,以提高训练效率和知识传输,并且 PERM 可以在离线上进行培训,适用于学生之间的传输。
Jun, 2023
利用强化学习的自适应课程和基于新颖距离测量的方法训练代理来适应不同的环境设计,与其他无监督环境设计方法相比,证明了本方法在文献中使用的三个不同基准问题的多样性和有效性。
Jan, 2023