Nov, 2018
超越马尔可夫决策过程的同态性能保证
Performance Guarantees for Homomorphisms Beyond Markov Decision Processes
Sultan Javed Majeed, Marcus Hutter
TL;DR通过扩展 Extreme State Aggregation(ESA)框架到联合状态 - 动作聚合,同时解除 ESA 中聚合的策略统一性条件,可以实现更粗糙的真实环境建模,进而将更多状态聚合起来,即使状态空间复杂庞大,也可以保证近乎最优的性能。