Jun, 2024

针对分层联合学习中的动态资源分配和客户端调度:一种两阶段深度强化学习方法

TL;DR该研究提出了一种名为 “TP-DDPG” 的两阶段深度确定性策略梯度 (DDPG) 框架,用于平衡能量收集驱动的层次化联邦学习系统中的学习延迟和模型准确性。通过将优化决策分为两组,使用 DDPG 在第一阶段学习一组,同时将另一组解释为环境部分,为第二阶段的 DDPG 训练提供奖励。实验证明,TP-DDPG 可以以比基准系统快 39.4% 的训练时间,快速收敛到有效策略,同时要求层次化联邦学习 (HFL) 的测试准确度为 0.9。