Feb, 2024

学做中:带因果感知策略的在线因果强化学习框架

TL;DR通过引入因果图模型来显式建模状态生成过程,并通过主动干预学习环境,优化衍生目标,提出了一种在探索阶段使用干预进行因果结构学习,然后在开发阶段使用学习到的因果结构进行策略指导的框架。实验结果表明,我们的方法在因果指导的策略学习和因果结构学习的良性循环的推动下,在故障报警环境中有效且稳健,超越了最先进的基准方法。