May, 2024

基于分层探索 - 利用权衡的离线 Oracle 高效学习上下文 MDP

TL;DR本文提出了一种从上下文马尔科夫决策过程到离线密度估计的高效、近似最优的转化算法,同时解决了无结构假设的模型类 CMDPs。