May, 2020

代理经验回放:分布式强化学习的联合蒸馏

TL;DR本文介绍了一种名为联邦强化蒸馏(FRD)的通信高效和隐私保护的分布式强化学习框架,并通过模拟实验验证了改进版本的 MixFRD 相对于基准方案具有更好的任务完成时间和通信成本方差减少。