Feb, 2025

马尔可夫决策过程中的稳健反事实推断

TL;DR本文解决了现有马尔可夫决策过程(MDP)反事实推断方法中的关键局限,现有方法依赖特定的因果模型,而此模型限制了反事实推断的有效性。我们提出了一种新的非参数方法,通过计算所有兼容因果模型的反事实转移概率的紧界,为反事实推断提供了高效和可扩展的解决方案。研究结果表明,我们的方法在各种案例研究中展现了比现有方法更强的稳健性。