稀疏全局对比解释下的策略优化

ICMLJul, 2022

Policy Optimization with Sparse Global Contrastive Explanations

Jiayu Yao, Sonali Parbhoo, Weiwei Pan, Finale Doshi-Velez

TL;DR本文提出了一种基于强化学习的框架，旨在通过稀疏的、易于理解的变化来改进现有的行为策略，以最小的改变获得尽可能多的利益。我们将最小的改变定义为原始策略与所提出策略之间的稀疏全局对比解释。在保持全局对比解释简短的约束条件下改进当前策略，并在离散 MDP 和连续 2D 导航领域中演示了我们的框架。

Abstract

We develop a reinforcement learning (RL) framework for improving an existing behavior policy via sparse, user-interpretable changes. Our goal is to make minimal changes while gaining as much benefit as possible.

reinforcement learning behavior policy global contrastive explanation mdp 2d navigation

发现论文，激发创造

强化学习中的反事实解释策略

通过引入反事实解释，COUNTERPOL 框架能够分析强化学习政策，并找到引导所需结果的政策最小改变，展示其在设计和开发反事实政策方面的实用性。

Jul, 2023

基于轨迹的稀疏奖励策略优化

利用离线演示轨迹的强化学习方法，通过最大均值差异（MMD）计算轨迹距离并将策略优化视为一种受距离限制的优化问题，从离线演示学习到的形状奖励函数实现了与离线演示相匹配的状态 - 动作访问边缘分布，从而在稀疏奖励环境下提供了更快且更高效的在线强化学习方法。

Jan, 2024

使用软自我生成指导学习多样化策略

通过使用多样的过去轨迹作为指导，而不是模仿它们，本文提出了一种方法，使得在线强化学习更快、更高效，即使这些轨迹是次优的或未获得高奖励；此外，引入了一种新的多样性度量来保持团队的多样性和调节探索。在离散和连续控制任务中评估了所提出的算法，与现有的强化学习方法相比，实验结果表明我们提出的算法在多样化探索和避免局部最优方面显著优于基准方法。

Feb, 2024

通过探索未被重视的奖励来改进政策梯度

本文提出了一种新颖的无模型强化学习策略梯度算法，采用基于概率的有指导性的探索策略，相比现有熵正则化方法更有效地探索高维度的稀疏奖励空间，并在一系列算法任务上得到了成功的应用。

Nov, 2016

稀疏奖励下连续控制任务中的本地持久探索

本文提出了一种新的基于探索者轨迹的探索策略，使用局部自避步态生成方法，结合合适的状态平均距离，来为稀疏奖励的连续状态和行动空间提供短时记忆，实现高效的环境探索。

Dec, 2020

基于预期后果的强化学习对比解释

本文提出了一种方法，使强化学习代理能够解释其行为，以期实现机器学习模型的透明化。通过将状态和行动转换为易于人类理解的描述，并使用一种可生成解释的格式，进行了计算，结果表明人类用户倾向于关注政策而非单个操作。

Jul, 2018

学习自我模仿多样化策略

本文提出了一种基于自我模仿学习的深度强化学习算法，旨在优化在稀疏和情景化奖励设置下的 RL 算法的效率，并使用 Stein 变分策略梯度下降来解决自我模仿学习的局限性，并在连续控制 MuJoCo 运动任务的一个具有挑战性的变体上展示了其有效性。

May, 2018

从稀疏和不充分的奖励中学习泛化

本研究提出 Meta Reward Learning（MeRL）方法，通过 MeRL 辅助奖励函数提供更精细的反馈用于学习，使用 KL 散度的模式覆盖和模式寻找探索环节来训练更加健壮的策略，解决了从稀疏和不完整奖励中学习的问题，实验表明在半监督语义分析任务中性能优于贝叶斯优化方法。

Feb, 2019

使用从稀疏奖励演示中学到的平滑引导奖励的策略优化

通过使用离线演示算法，提出了一种名为 Policy Optimization with Smooth Guidance (POSG) 的简单高效的在线深度强化学习算法，该算法能够解决奖励反馈稀疏性的问题，并在稀疏奖励环境中实现可靠有效的长期信用分配以及有效的探索。

Dec, 2023

嵌入式自我预测对强化学习的对比解释

本文提出了一种支持解释强化学习代理为何倾向于执行一种行动而非另一种行动的深度强化学习架构，并应用于三个领域的案例研究中，证明了嵌入式自我预测模型可以有效学习并支持有见解的解释。

Oct, 2020