本文介绍了一种基于差异性驱动的强化学习探索方法,结合在线和离线强化学习算法,通过向损失函数中添加距离度量,显著提高了代理的探索行为,从而防止局部最优解以及进行了学习进程的自适应缩放方法,实验表明该方法在 Atari 2600 中在多个任务中显著优于基线方法.
Feb, 2018
本文提出通过共轭策略的多样化探索(DE),以解决在政策梯度方法中保持良好性能的有效探索的问题,DE 学习和应用一组共轭策略,并提供了理论和实证结果,证明 DE 实现了探索,提高了策略性能,并优于探索随机策略扰动。
Feb, 2019
基于探索的深度强化学习方法对新环境具有良好的泛化能力,通过使用一种基于 Q 值分布集合的探索方法,该算法在 Procgen 和 Crafter 两个高维强化学习一般化基准上取得了最新的进展。
Jun, 2023
本论文提出多层次强化学习 (DEHRL) 框架,使用多个层次以实现对高度抽象目标的学习。通过对 DEHRL 的实验评估,结果表明,DEHRL 在四个方面超过了现有技术的基准线。
Nov, 2018
通过使用多样的过去轨迹作为指导,而不是模仿它们,本文提出了一种方法,使得在线强化学习更快、更高效,即使这些轨迹是次优的或未获得高奖励;此外,引入了一种新的多样性度量来保持团队的多样性和调节探索。在离散和连续控制任务中评估了所提出的算法,与现有的强化学习方法相比,实验结果表明我们提出的算法在多样化探索和避免局部最优方面显著优于基准方法。
Feb, 2024
通过提供一个统一的多样性强化学习框架并研究多样性政策的收敛性,我们在这篇论文中提出了一个经过证明的有效多样性强化学习算法,并通过数值实验验证了我们方法的有效性。
Aug, 2023
本文结合高效的进化策略算法(ES)、直接探索策略和进化智能技术,提出了一种新型快速可扩展的在深度强化学习任务中进行探索的算法,通过在 Atari 游戏和机器人学习领域的实验验证,提高了 ES 在稀疏或陷阱型的深度 RL 任务中的表现。
Dec, 2017
本文旨在提出一种名为 DPO 的简单而有效的强化学习方法,用于在具有结构动作空间的 RL 任务中寻求多样性的策略。在实验中,DPO 在 ATSC 和 Battle 基准测试中都能够有效地发现多样的策略,在挑战性场景中显著优于现有的最先进方法。
Feb, 2023
本文介绍了一种基于行为多样性的优化方法,该方法使用任务不可知的行为嵌入度量整个人群的行为流形的体积,并通过在线学习技术适应多样性程度,从而提高探索能力,而不会降低性能。
Feb, 2020
本文提出了一种基于多样性导向的动态规划策略优化算法(DGPO),该算法使用多样性对象来指导一个隐式编码策略,从而在单一的训练过程中学习出多组不同的策略,并将受外部激励约束的优化问题作为概率推理任务来解决,并使用策略迭代来最大化所得的下界。实验结果表明,该方法在各种强化学习任务中有效地找到了多样化的策略,并且与其他基线模型相比具有更高的多样性得分和相似的样本复杂度和性能。
Jul, 2022