Mar, 2024
健壮马氏决策过程中高效锐利的离策略评估
Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes
Andrew Bennett, Nathan Kallus, Miruna Oprescu, Wen Sun, Kaiwen Wang
TL;DR在环境变化、干扰函数估计不一致和有限样本学习的情况下,本研究旨在评估策略值,并提出了一种扰动模型,可以根据转移观测对传统 MDP 进行边界估计。