通过策略规范化对智能体进行特征化的强化学习

Jan, 2022

通过策略规范化对智能体进行特征化的强化学习

Reinforcement Learning Your Way: Agent Characterization through Policy Regularization

Charl Maree, Christian Omlin

TL;DR该论文提出了一种基于正则化的强化学习方法，使代理人的行为具有指定的特征，从而增强了透明度和可解释性，并可应用于金融领域的个性化投资组合优化。

Abstract

The increased complexity of state-of-the-art reinforcement learning (RL) algorithms have resulted in an opacity that inhibits explainability and understanding. This has led to the development of several post-hoc

reinforcement learning explainability post-hoc methods regularization model explanation

发现论文，激发创造

可读行为的政策规范化

本文提出了一种从可观测模型角度注入易解释性行为，以实现在线可解释性的方法，不需要修改学习算法的组件，而是通过对策略的规范化使决策边界对易读性产生影响，以便支持使用者理解和观察 RL 机制。

Mar, 2022

亲和力基础强化学习代理的马尔科夫模型符号解释

为了改善现有强化学习算法的透明度不足，研究人员开发了一种策略正则化方法，使用离散化马尔可夫模型的全局代理来复现基于个人消费行为的投资策略，并提出了一种针对这些策略全局内在亲和性的解释方法，以实现对策略行为的推理，从而提高其可解释性。

Aug, 2022

通过模型转换的可解释强化学习

通过使用形式化的马尔科夫决策过程抽象和转换，以自动产生解释的方式，解释强化学习智能体的新兴行为。

Sep, 2022

强化学习的苦涩教训：行动者 - 评论家中的高估、过拟合和可塑性

通过在多个仿真场景中测试超过 60 种不同的 off-policy 智能体，并结合最新的正则化技术，我们发现适当进行正则化的简单 Soft Actor-Critic 智能体在解决狗任务方面表现出稳健而优越的性能。

Mar, 2024

离线增强学习与在线策略 Q 函数规范化

提出了两种算法，利用行为策略的 Q 函数通过正则化来解决离线强化学习中由于数据分布变化而引起的外推误差，该方法在 D4RL 基准测试中表现出良好的性能。

Jul, 2023

通过反事实轨迹解释强化学习策略

通过展示强化学习代理在更广泛的轨迹分布中的行为，我们的方法可以传达代理在分布转移下的表现，从而有助于代理的有效验证。在用户研究中，我们展示了我们的方法可以使用户在代理验证任务中的得分比基准方法高。

Jan, 2022

策略优化中的正则化问题

通过深度强化学习的控制任务，对传统正则化技术在多种优化算法中的应用及效果进行综合研究，发现传统的正则化技术能够改善学习效果，特别在较难的任务中，说明正则化有助于强化学习中的泛化表现。

Oct, 2019

基于层次结构的 KL 正则化强化学习中的学习和迁移

本文提出一种基于 KL 正则化预期奖励目标的强化学习代理方法，它可以利用先验知识并在解决方案空间中利用可重复使用的结构，同时讨论了在增加潜在变量的情况下如何实现分层结构的不同归纳偏置以及其中的置换学习问题。实验证明，这种代理方法可以应用于不同的连续控制任务中，获得更快的学习和置换效果。

Mar, 2019

基于状态转移模型的基于特征的可解释强化学习

提出了一种基于状态转移模型的强化学习局部可解释风险的方法，并通过实验证明了其有效性。

May, 2021

可解释性强化学习是否能管理您的繁荣？

通过机器学习和强化学习算法，引入可解释性的特征，应用于个性化银行和金融服务，实现资产管理和投资建议的个性化推荐。

Feb, 2022