集群政策决策排名

Nov, 2023

Clustered Policy Decision Ranking

Mark Levin, Hana Chockler

TL;DR通过统计协方差估计的黑盒方法，基于聚类和决策重要性排序，来分析强化学习任务中决策对奖励的贡献和重要性，并与之前的基于统计错误定位的排序方法进行了比较。

Abstract

policies trained via reinforcement learning (RL) are often very complex even for simple tasks. In an episode with n time steps, a policy will make n decisions on actions to take, many of which may appear non-intu

policies reinforcement learning complexity statistical covariance estimation decision ranking

发现论文，激发创造

强化学习的本地解释

本文介绍了一种基于元态的深度强化学习策略理解方法，通过识别从自动学习的元状态中的重要状态，而非从行为相似性出发，来帮助领域用户理解深度强化学习策略，实验结果表明，这种方法可以帮助我们更好地理解深度强化学习策略。

Feb, 2022

奖励预测聚类

通过聚类算法，构建奖励预测深度网络所需的状态抽象，加速高维可视控制任务的学习并实现通过预先训练的奖励预测表示网络在不重新训练的情况下加速学习的系统性跨分布传递。

Nov, 2022

稀缺经验学习

使用似然比估计的一族算法在估计和优化阶段利用经验数据来优化策略，从而更高效地解决部分可观察的强化学习问题，该算法在实验中表现良好。

Apr, 2002

机器人黑盒数据高效策略搜索

本文提出一种称为 Black-DROPS 的新型基于模型的强化学习算法，使用黑盒算法代替基于梯度的优化算法，可以更灵活地处理奖励函数和策略，并且在数据效率方面与现有最先进算法相当。在模拟环境和机器人系统上进行验证。

Mar, 2017

政策评估网络

本文提出了一种基于价值函数、梯度上升和指纹技术的增强学习方法，通过估计给定一组状态下多种策略的价值，实现了在策略空间直接进行梯度上升从而产生优秀的策略。实验结果表明，该方法的理论和实际效果均优于传统方法。

Feb, 2020

深度强化学习的理解与诊断

利用神经网络构建的深度神经决策模型在不同领域中得到广泛应用，但深度神经网络在近似值函数时可能会导致决策边界的稳定性问题，特别是对于高度非凸和复杂的神经网络结构，不可识别、非鲁棒特征对策略决策有较大敏感性。因此，有必要开发能够理解神经网络策略学习中敏感性的技术。本研究介绍了一种理论基础的方法，系统分析了深度神经决策边界在时间和空间上的不稳定方向。通过实验在 Arcade Learning Environment (ALE) 中，我们展示了该方法在识别相关不稳定方向以及测量样本偏移对神经网络策略学习中敏感方向集合的影响方面的有效性。最重要的是，我们证明了最先进的鲁棒训练技术相对于标准训练方法在学习不相交的不稳定方向时，随着时间的推移产生更大的振荡。我们相信这些结果揭示了强化学习策略的决策过程的基本属性，并能帮助构建可靠而稳健的深度神经策略。

Jun, 2024

分而治之强化学习

提出了一种将初始状态空间划分为不同 ' 切片 ' 并对每个切片上的策略进行优化的 Deep RL 算法，其逐步将这些策略组合为一个能够在整个状态空间上成功的策略，该方法在挑战性的抓握、操纵和运动任务上表现出比常规策略梯度方法更好的性能。

Nov, 2017

解释性和简洁的遗传模糊系统强化学习策略

本文介绍了一种名为 Fuzzy MoCoCo 的基于模糊规则的政策演化系统，它利用多目标和合作协同机制，通过在连续状态 RL 环境 Mountain Car 上测试，结果表明该系统能够有效地探索政策性能和复杂性之间的平衡，并学习使用尽可能少的规则的可解释和高性能政策。

May, 2023

通过反事实轨迹解释强化学习策略

通过展示强化学习代理在更广泛的轨迹分布中的行为，我们的方法可以传达代理在分布转移下的表现，从而有助于代理的有效验证。在用户研究中，我们展示了我们的方法可以使用户在代理验证任务中的得分比基准方法高。

Jan, 2022

通过学习识别少而关键的状态进行一般政策评估和改进

在深度神经网络上，使用 Parameter-Based Value Functions 和 Policy Evaluation Networks 的 Actor-Critic 框架，学习单一价值函数来评估和改进 RL 策略，并通过学习少量的探测状态和行动映射来提取关于环境的重要抽象知识。

Jul, 2022