BriefGPT.xyz
Ask
alpha
关键词
state-action space homomorphism
搜索结果 - 1
超越马尔可夫决策过程的同态性能保证
通过扩展 Extreme State Aggregation(ESA)框架到联合状态 - 动作聚合,同时解除 ESA 中聚合的策略统一性条件,可以实现更粗糙的真实环境建模,进而将更多状态聚合起来,即使状态空间复杂庞大,也可以保证近乎最优的性
→
PDF
6 years ago
Prev
Next