强化学习因果发现

ICLRJun, 2019

Causal Discovery with Reinforcement Learning

Shengyu Zhu, Ignavier Ng, Zhitang Chen

TL;DR使用强化学习和编码器 - 解码器模型进行因果发现，生成图中的邻接矩阵以计算奖励，结合预定义分数函数和惩罚项强制保持无环性，提高图搜索能力和灵活性。

Abstract

Discovering causal structure among a set of variables is a fundamental problem in many empirical sciences. Traditional score-based casual discovery methods rely on various local heuristics to search for a Directed Acyclic Graph (DAG) according to a predefined score function. While these methods, e.g., greedy equivalence search, may have attractive results wi

causal discovery reinforcement learning graph search adjacency matrices acyclicity constraint

发现论文，激发创造

基于排序的强化学习因果探索

本篇研究提出了一种新颖的基于强化学习 (RL) 的因果推断方法，通过将 RL 合并到基于排序的模式中，并通过一个编码器 - 解码器架构实现排序生成过程，并最终使用 RL 优化所提出的模型来处理生成的排序，以获得最终的因果图。在合成和真实数据集上的实验结果表明，所提出的方法比现有的 RL-based 方法具有更好的性能。

May, 2021

模型导向的强化学习在 DAG 空间的树搜索中的应用于因果关系发现

通过树搜索的模型驱动增量式有向无环图建立，提出了一种基于因果关系的强化学习方法，并通过一个有效算法证明了排除引入循环边缘的正确性，实现了在有向无环图空间中更深层的离散搜索和抽样，为组合方法提供了有希望的进展。

Oct, 2023

基于梯度的神经 DAG 学习

本文提出了一种基于得分的方法，利用神经网络在连续约束优化理论的基础上，允许处理变量之间的非线性关系，用于学习有向无环图，相对于其他连续优化方法，这种方法在很多任务上表现更好，在因果推断的重要度量上与现有的贪婪搜索方法相比具有竞争力。在合成存储和真实世界数据集上进行了试验。

Jun, 2019

GFlowCausal: 用于因果发现的生成式流网络

提出了一种名为 GFlowCausal 的新方法，通过逐步添加直接边将图搜索问题转变为生成问题，从而从观测数据中学习一个有向无环图 (DAG)，并使用基于可传递闭包的即插即用模块确保高效的采样，理论分析表明，此模块能够有效地保证无环特性和最终状态与完全连接图之间的一致性，实验结果表明该方法具有显著优势，并且在大规模设置下也表现良好。

Oct, 2022

基于视觉模型的强化学习因果关系发现的系统评价

本文研究在机器学习中从观察数据中识别因果关系的问题，探讨如何帮助学习高级变量及其中的因果结构，并介绍了一套基于强化学习的环境用于测试表示学习算法的性能。研究表明，模型中显式地融合结构和模块化有助于因果识别。

Jul, 2021

用于因果发现的元强化学习算法

本文中提出了一种利用元强化学习算法，通过学习干预变量的方法来进行因果发现并构建明确的因果图的方法，研究表明与现有最先进的方法相比表现出的结果更好，揭示了这种干预策略对于该方法性能的贡献。

Jul, 2022

基于顺序图的强化因果结构学习

本研究提出了一种使用强化学习和顺序图来学习因果结构的方法，称为 RCL-OG。在合成和基准数据集上的实验表明，RCL-OG 提供了准确的后验概率近似，并比竞争的因果发现算法取得了更好的结果。

Nov, 2022

发现动态因果空间进行有向无环图结构学习

提出了一个新的因果结构学习动态因果空间（CASPER），能够整合图结构作为因果空间中的新度量，以准确反映估计和真实 DAG 之间的因果距离，并通过自适应关注 DAG-ness 增强 DAG 结构学习。

Jun, 2023

有向无环图生成的深度 Q 学习

利用深度强化学习，我们提出了一种生成有向无环图（DAGs）的方法，并能在高度稀疏的回报环境中生成满足特定拓扑与结点类型标准的有向边图。

Jun, 2019

通过自适应样本加权提高可微因果发现

本文提出了一种简单而有效的模型无关框架，通过动态学习适应权重来增强因果发现的性能，该权重定量地适合于每个样本的重要度，并已在合成和真实世界数据集上进行了广泛的实验证明，具有稳定且显着的结构学习性能提升，同时缓解了虚假边的影响并推广到异构数据。

Mar, 2023