ReCCoVER：检测可解释强化学习中的因果混淆

Mar, 2022

ReCCoVER：检测可解释强化学习中的因果混淆

ReCCoVER: Detecting Causal Confusion for Explainable Reinforcement Learning

Jasmina Gajcin, Ivana Dusparic

TL;DR本文提出了 ReCCoVER 算法，该算法可以在出现因果混淆的情况下增强深度强化学习智能体的透明度和可靠性，并为开发人员提供基于实际状态空间的特征选择建议。

Abstract

Despite notable results in various fields over the recent years, deep reinforcement learning (DRL) algorithms lack transparency, affecting user trust and hindering their deployment to high-risk tasks. causal confusion

deep reinforcement learning causal confusion transparency feature selection reccover algorithm

发现论文，激发创造

看到并不意味着信仰：针对虚假相关性的强化学习

本研究考虑了强化学习中因未观测潜在因素引起的虚假相关性所导致的稳健性问题，提出了集成马尔可夫决策过程和状态混淆技术的算法 RSC-MDPs，并在真实的自动驾驶和操作环境中验证了其卓越性能。

Jul, 2023

为可解释强化学习进行因果状态精炼

本文介绍了一种扩展奖励分解方法的因果学习框架，通过利用信息论度量的解释目标来鼓励因果因素的三个关键属性：因果充分性、稀疏性和正交性，并通过提取智能体状态、动作或奖励之间的因果关系深入理解其决策过程，从而为行动选择提供更有意义和有洞察力的解释。

Dec, 2023

主动采样能减少离线强化学习中的因果混淆吗？

通过选择适当的样本点从演示数据集中进行有选择性的采样，我们研究了离线增强学习中的因果混淆现象，并评估了主动采样技术在减少因果混淆方面的能力。我们提供了实证证据，证明随着训练的进展，均匀采样和主动采样技术能够持续减少因果混淆，并且主动采样要比均匀采样更高效地实现这一目标。

Dec, 2023

提高强化学习健壮性的因果反事实

本研究提出 CausalCF，将因果推理与强化学习相结合，使得该模型在复杂任务上更加稳健，同时，实验表明 CausalCF 已经成为了第一个完整的能够将 Causal Curiosity 和 CoPhy 思想融入的因果强化学习解决方案。

Nov, 2022

去交织模仿学习的初始状态干预

模仿学习中的因果混淆问题及其遮蔽算法的应用。

Jul, 2023

强化学习效率提升的因果影响检测

本文研究如何通过对强化学习智能体在特定情况下的影响力进行测量，结合条件互信息将此度量值引入强化学习算法，提高机器人操作任务中的数据效率。

Jun, 2021

通过干预解决环境因果模型中的伪相关性

本文提供了几种干预方法用来解决因果模型中出现的假相关问题，并在强化学习环境中的实验结果也表明，相较于使用随机数据或基于环境奖励的数据进行模型学习，本文的方法能够得到更好的因果模型。

Feb, 2020

基于偏好的奖励学习中因果混淆和奖励误识别问题

通过偏好学习奖励的策略是一种定制代理行为的越来越受欢迎的方法，本文通过敏感度和消融分析，发现不能考虑多种因素会导致出乎意料和不良行为，如奖励误认和因果混淆等。

Apr, 2022

复杂环境中功能实际原因的自动发现

通过使用功能实际因果 (FAC) 和联合优化实际因果推断 (JACI) 算法，本研究在复杂连续数值环境中展示了 FAC 与实际因果文献中已知结果的一致性，并且 JACI 在识别实际原因的准确性上明显优于现有的启发式方法。

Apr, 2024

强化学习中的分离表示条件互信息

本研究提出了一种针对强化学习中存在相关特征的高维观察数据的辅助任务方法，通过最小化表示中特征的条件互信息来学习解缠缚表示，以提高对相关性变化的泛化能力。实验结果表明，该方法可以提高强化学习算法的训练性能和泛化能力。

May, 2023