学做中：带因果感知策略的在线因果强化学习框架

Feb, 2024

学做中：带因果感知策略的在线因果强化学习框架

Learning by Doing: An Online Causal Reinforcement Learning Framework with Causal-Aware Policy

Ruichu Cai, Siyang Huang, Jie Qiao, Wei Chen, Yan Zeng...

TL;DR通过引入因果图模型来显式建模状态生成过程，并通过主动干预学习环境，优化衍生目标，提出了一种在探索阶段使用干预进行因果结构学习，然后在开发阶段使用学习到的因果结构进行策略指导的框架。实验结果表明，我们的方法在因果指导的策略学习和因果结构学习的良性循环的推动下，在故障报警环境中有效且稳健，超越了最先进的基准方法。

Abstract

As a key component to intuitive cognition and reasoning solutions in human intelligence, causal knowledge provides great potential for reinforcement learning (RL) agents' interpretability towards decision-making by helping reduce the searching space. However, there is still a considera

causal knowledge reinforcement learning agents causal graphical model active intervention learning causal-guided policy learning

发现论文，激发创造

网络强化学习的因果性质

强化学习和因果建模在互补中相当自然地互相配合。本研究论文考察了哪些强化学习设置可以受益于因果建模，以及如何进行。

Mar, 2024

因果透镜下的可解释强化学习

本文使用因果关系模型来推导强化学习器的行为的因果解释，并通过对一项实验的研究结果表明，基于因果模型的解释在任务预测、解释满意度和信任方面表现更好。

May, 2019

用于因果发现的元强化学习算法

本文中提出了一种利用元强化学习算法，通过学习干预变量的方法来进行因果发现并构建明确的因果图的方法，研究表明与现有最先进的方法相比表现出的结果更好，揭示了这种干预策略对于该方法性能的贡献。

Jul, 2022

元强化学习推理因果关系

研究通过元强化学习是否可以发现因果推理，在这项研究中，我们训练了一个递归神经网络对包含因果结构的一系列问题进行无模型强化学习，证明了该代理可以在新的情况下进行因果推理，从观测数据中得出因果推断结果以及进行反事实预测，我们提出这种学习方法也可以在复杂的推理场景中进行因果推理，同时该工作还提供了新的强化学习结构探索策略。

Jan, 2019

通过因果世界模型实现可解释的强化学习

本文针对强化学习中行为的长期影响，提出了一种基于因果世界模型的可解释强化学习框架。该模型能够捕捉行为的影响，通过因果链解释行为的长期效应，从而提高模型的可解释性，同时保持了准确性，使其适用于基于模型的学习。实验结果表明，因果模型可以作为解释性和学习之间的桥梁。

May, 2023

因果强化学习调查

研究人员通过借鉴因果关系文献的见解，引入因果关系和强化学习，划分了现有 Causal Reinforcement Learning (CRL) 方法的两类，并分析了每一类的不同模型的形式化。

Feb, 2023

运用变分因果推理泛化目标条件强化学习

利用 Causal Graph 加强了 Goal-Conditioned RL，提出了一种理论性能保证的优化框架，包括因果性发现、转换建模和策略训练的循环以提高 RL 代理的推理和泛化能力，并在九种任务上与五个基线进行了实证效果验证。

Jul, 2022

基于视觉模型的强化学习因果关系发现的系统评价

本文研究在机器学习中从观察数据中识别因果关系的问题，探讨如何帮助学习高级变量及其中的因果结构，并介绍了一套基于强化学习的环境用于测试表示学习算法的性能。研究表明，模型中显式地融合结构和模块化有助于因果识别。

Jul, 2021

利用观测和干预数据的因果强化学习

本文探讨了利用 Causal Inference 理论和 Latent-based causal transition model 在 offline data 的基础上，使用 observational data 可以有效地提高 model-based RL agents 的 generalization guarantees 问题。

Jun, 2021

基于排序的强化学习因果探索

本篇研究提出了一种新颖的基于强化学习 (RL) 的因果推断方法，通过将 RL 合并到基于排序的模式中，并通过一个编码器 - 解码器架构实现排序生成过程，并最终使用 RL 优化所提出的模型来处理生成的排序，以获得最终的因果图。在合成和真实数据集上的实验结果表明，所提出的方法比现有的 RL-based 方法具有更好的性能。

May, 2021