BriefGPT.xyz
Ask
alpha
关键词
transition observations
搜索结果 - 1
健壮马氏决策过程中高效锐利的离策略评估
在环境变化、干扰函数估计不一致和有限样本学习的情况下,本研究旨在评估策略值,并提出了一种扰动模型,可以根据转移观测对传统 MDP 进行边界估计。
PDF
3 months ago
Prev
Next