May, 2024

离线强化学习中的领域外适应性:通过因果规范化流进行反事实推理

TL;DR通过因果推论而非策略正则化方法,本文提出了 MOOD-CRL(基于模型的线下 OOD 自适应因果强化学习)算法,旨在解决离线策略训练中的外推挑战。通过基于数据不变性、基于物理学的定性因果图和观测数据,我们开发了一种新的学习方案,以学习定量结构因果模型,从而赋予 CNF 预测和反事实推理能力,对顺序决策任务具有较高的 OOD 适应潜力。我们基于 CNF 的线下 RL 方法通过实证评估得到验证,明显优于无模型和基于模型的方法。