集群政策决策排名
本文介绍了一种基于元态的深度强化学习策略理解方法,通过识别从自动学习的元状态中的重要状态,而非从行为相似性出发,来帮助领域用户理解深度强化学习策略,实验结果表明,这种方法可以帮助我们更好地理解深度强化学习策略。
Feb, 2022
本文提出一种称为 Black-DROPS 的新型基于模型的强化学习算法,使用黑盒算法代替基于梯度的优化算法,可以更灵活地处理奖励函数和策略,并且在数据效率方面与现有最先进算法相当。在模拟环境和机器人系统上进行验证。
Mar, 2017
本文提出了一种基于价值函数、梯度上升和指纹技术的增强学习方法,通过估计给定一组状态下多种策略的价值,实现了在策略空间直接进行梯度上升从而产生优秀的策略。实验结果表明,该方法的理论和实际效果均优于传统方法。
Feb, 2020
利用神经网络构建的深度神经决策模型在不同领域中得到广泛应用,但深度神经网络在近似值函数时可能会导致决策边界的稳定性问题,特别是对于高度非凸和复杂的神经网络结构,不可识别、非鲁棒特征对策略决策有较大敏感性。因此,有必要开发能够理解神经网络策略学习中敏感性的技术。本研究介绍了一种理论基础的方法,系统分析了深度神经决策边界在时间和空间上的不稳定方向。通过实验在 Arcade Learning Environment (ALE) 中,我们展示了该方法在识别相关不稳定方向以及测量样本偏移对神经网络策略学习中敏感方向集合的影响方面的有效性。最重要的是,我们证明了最先进的鲁棒训练技术相对于标准训练方法在学习不相交的不稳定方向时,随着时间的推移产生更大的振荡。我们相信这些结果揭示了强化学习策略的决策过程的基本属性,并能帮助构建可靠而稳健的深度神经策略。
Jun, 2024
提出了一种将初始状态空间划分为不同 ' 切片 ' 并对每个切片上的策略进行 优化的 Deep RL 算法,其逐步将这些策略组合为一个能够在整个状态空间上成功的策略,该方法在挑战性的抓握、操纵和运动任务上表现出比常规策略梯度方法更好的性能。
Nov, 2017
本文介绍了一种名为 Fuzzy MoCoCo 的基于模糊规则的政策演化系统,它利用多目标和合作协同机制,通过在连续状态 RL 环境 Mountain Car 上测试,结果表明该系统能够有效地探索政策性能和复杂性之间的平衡,并学习使用尽可能少的规则的可解释和高性能政策。
May, 2023
通过展示强化学习代理在更广泛的轨迹分布中的行为,我们的方法可以传达代理在分布转移下的表现,从而有助于代理的有效验证。在用户研究中,我们展示了我们的方法可以使用户在代理验证任务中的得分比基准方法高。
Jan, 2022
在深度神经网络上,使用 Parameter-Based Value Functions 和 Policy Evaluation Networks 的 Actor-Critic 框架,学习单一价值函数来评估和改进 RL 策略,并通过学习少量的探测状态和行动映射来提取关于环境的重要抽象知识。
Jul, 2022