Oct, 2013

基于 Gossip 的分布式强化学习

TL;DR本研究考虑了在代理人网络中实现经典的 TD (0) 算法,并在代理人之间使用类似流言蜚语的机制传递更新。该组合方案被证明可以收敛于折扣和平均成本问题。