联合策略梯度方法在存在对手情况下的全局收敛保证
分布式强化学习中,我们提出了第一种去中心化的拜占庭容错方法,通过结合强大的聚合和拜占庭容错协议来降低对受信任中央实体的需求,实验结果表明其对参与代理数量的加速和抵抗不同拜占庭攻击具有可靠性。
Jan, 2024
我们提出了两个算法:FedSVRPG-M 和 FedHAPG-M,通过利用动量机制,不论环境异质性的大小,两个算法都可以精确收敛到平均性能函数的一个稳定点,进一步结合方差降低技术或海森矩阵近似,两个算法均达到了最新的收敛结果,其采样复杂度为 O (epsilon^(-3/2)/N),同时我们的算法线性加速了收敛速度,并突显了在找到共同策略中代理之间合作的好处。
May, 2024
我们研究了具有约束异构性的联邦强化学习(FedRL)问题,通过多个智能体在不同环境下协同学习,解决具有多个约束的强化学习问题,并提出了基于传统策略梯度方法的联邦原始 - 对偶策略优化方法,其中我们关注的两种算法为 FedNPG 和 FedPPO,通过使用深度神经网络,FedPPO 有效地解决了复杂的学习任务。
May, 2024
为了提高强化学习的效率,我们提出了一个名为 AFedPG 的新型异步联邦强化学习框架,通过使用策略梯度(PG)更新在 N 个智能体之间进行协作来构建全局模型。我们设计了延迟自适应预测和归一化更新技术来处理异步环境中滞后策略的挑战,并分析了 AFedPG 的理论全局收敛界限,以及在样本复杂度和时间复杂度方面的优势。最后,我们在三个 MuJoCo 环境中通过实证验证了 AFedPG 的改进性能,并展示了不同计算异质性下的改进效果。
Apr, 2024
通过引入线性函数逼近方法,我们提出了 FedSARSA,一种新颖的联邦在线政策强化学习方案,以应对 FRL 算法的挑战,并提供全面的有限时间误差分析。我们证明了 FedSARSA 收敛于对所有代理都接近最优的政策,该接近程度与异质性水平成正比。此外,我们证明了 FedSARSA 利用代理协作实现了线性加速,随着代理数量的增加而适应性地提升速度,对于固定和自适应步长配置均成立。
Jan, 2024
本文提出了一种新的深度强化学习框架 FedRL,旨在联邦地建立高质量的代理模型,其中考虑到其隐私,并通过利用高斯微分来保护数据和模型的隐私。在 Grid-world 和 Text2Action 领域的实验中,该框架与各种基线模型进行了比较。
Jan, 2019
此研究论文介绍了一种名为 $f$-PG 的新型鼓励探索方法,通过最小化智能体状态访问分布与目标之间的 f - 分歧来实现稀疏奖励环境下的优化策略,同时引入了熵正则化策略优化目标 $s$-MaxEnt RL 用于优化度量为 L2 的奖励,在多个环境中展示了与标准策略梯度方法相比更好的性能。
Oct, 2023