Apr, 2023

马尔可夫决策过程中的一致离线评估

TL;DR提出了一种基于符合预测的 OPE 方法,可以在给定的一定置信水平下输出包含目标策略真实奖励的区间,并通过不同的方法处理由于目标策略和行为策略之间差异导致的分布偏移,并在保持相同置信水平的情况下,相对于现有方法降低区间长度。