BriefGPT.xyz
Ask
alpha
关键词
policy iteration algorithms
搜索结果 - 1
AAAI
马尔可夫奖励过程中折扣值的循环估计器
研究怎样使用所提出的 Loop estimator 算法优化 Policy iteration 算法中的 Policy evaluation 步骤,实现有效的、具有强大空间和收敛性的单状态 s 值计算,以精确地评估 MDP 中的状态价值。
PDF
4 years ago
Prev
Next