本文提出了一种从可观测模型角度注入易解释性行为,以实现在线可解释性的方法,不需要修改学习算法的组件,而是通过对策略的规范化使决策边界对易读性产生影响,以便支持使用者理解和观察 RL 机制。
Mar, 2022
为了改善现有强化学习算法的透明度不足,研究人员开发了一种策略正则化方法,使用离散化马尔可夫模型的全局代理来复现基于个人消费行为的投资策略,并提出了一种针对这些策略全局内在亲和性的解释方法,以实现对策略行为的推理,从而提高其可解释性。
Aug, 2022
通过使用形式化的马尔科夫决策过程抽象和转换,以自动产生解释的方式,解释强化学习智能体的新兴行为。
Sep, 2022
通过在多个仿真场景中测试超过 60 种不同的 off-policy 智能体,并结合最新的正则化技术,我们发现适当进行正则化的简单 Soft Actor-Critic 智能体在解决狗任务方面表现出稳健而优越的性能。
Mar, 2024
提出了两种算法,利用行为策略的 Q 函数通过正则化来解决离线强化学习中由于数据分布变化而引起的外推误差,该方法在 D4RL 基准测试中表现出良好的性能。
Jul, 2023
通过展示强化学习代理在更广泛的轨迹分布中的行为,我们的方法可以传达代理在分布转移下的表现,从而有助于代理的有效验证。在用户研究中,我们展示了我们的方法可以使用户在代理验证任务中的得分比基准方法高。
Jan, 2022
通过深度强化学习的控制任务,对传统正则化技术在多种优化算法中的应用及效果进行综合研究,发现传统的正则化技术能够改善学习效果,特别在较难的任务中,说明正则化有助于强化学习中的泛化表现。
Oct, 2019
本文提出一种基于 KL 正则化预期奖励目标的强化学习代理方法,它可以利用先验知识并在解决方案空间中利用可重复使用的结构,同时讨论了在增加潜在变量的情况下如何实现分层结构的不同归纳偏置以及其中的置换学习问题。实验证明,这种代理方法可以应用于不同的连续控制任务中,获得更快的学习和置换效果。
Mar, 2019
提出了一种基于状态转移模型的强化学习局部可解释风险的方法,并通过实验证明了其有效性。
May, 2021
通过机器学习和强化学习算法,引入可解释性的特征,应用于个性化银行和金融服务,实现资产管理和投资建议的个性化推荐。
Feb, 2022