Dec, 2013

多行为策略下的分布式策略评估

TL;DR采用扩散策略,将全分布式协作强化学习算法应用于分布式网络,实现仅与直接相邻的智能体通信以改进他们对环境的预测能力,具有线性计算时间和内存占用的高效分布式策略,可应用于离线学习和连续学习,以减少预测误差的偏差和方差,实现全局最优解的学习。