Nov, 2017

优先扫描是否更好的情节控制?

TL;DR本研究发现,在确定性树形 Markov 决策过程中,情景控制与优先扫描具有相同的样本效率、内存和计算需求。在一般的确定性和随机环境中,即使记忆和计算需求被限制为与情景控制相等,优先扫描的表现也更好。这些结果表明了优先扫描在部分可观察环境下的泛化能力,以及在功能逼近和可实现性方面的使用率和潜力。