ICMLMar, 2020

块 MDPs 不变因果预测

TL;DR本研究利用因果推断工具,提出了一种不变预测方法,学习适用于具有共享潜在状态空间和动态结构的块 MDPs 的抽象,但观测值不同。研究证明,对于某些环境类别,该方法高概率输出与回报相关的原因特征集对应的状态抽象,并在多环境设置中提供更广泛的模型误差和泛化误差的限制。本研究的实证证据表明,该方法在线性和非线性设置中均能取得更好的泛化效果。