IJCAIJul, 2019

使用代理经验记忆的联邦加强蒸馏

TL;DR提出了一种隐私保护的分布式强化学习框架 FRD,通过交换代理经验记忆保留真实经验的隐私,基于优势 actor-critic 强化学习架构评估了 FRD 的有效性,并研究了代理内存结构和不同内存交换规则对 FRD 性能的影响。