Mar, 2024

健壮马氏决策过程中高效锐利的离策略评估

TL;DR在环境变化、干扰函数估计不一致和有限样本学习的情况下,本研究旨在评估策略值,并提出了一种扰动模型,可以根据转移观测对传统 MDP 进行边界估计。