Jan, 2024

上下文强化学习中基于一般协变量转移的分布稳健策略评估

TL;DR我们介绍了一种分布健壮的方法,用于在背景变量移位下增强上下文赌博的离线策略评估的可靠性。通过应用分布健壮回归技术改进条件奖励分布的估计,我们开发出一套综合的策略价值评估器,并通过理论分析证明了该方法相对于传统方法在偏移较大时的有限样本上限优势。在广泛的策略评估场景中,我们的实证结果表明我们的方法明显优于基准方法。