MMMay, 2024

基于双规范化的联邦离线策略优化

TL;DR提出了一种名为 DRPO 的离线联邦策略优化算法,通过使用双重正则化来解决离线联邦强化学习中的两级分布变化问题,实现了分布式智能决策的显著性能提升。