Nov, 2018

超越马尔可夫决策过程的同态性能保证

TL;DR通过扩展 Extreme State Aggregation(ESA)框架到联合状态 - 动作聚合,同时解除 ESA 中聚合的策略统一性条件,可以实现更粗糙的真实环境建模,进而将更多状态聚合起来,即使状态空间复杂庞大,也可以保证近乎最优的性能。