Jan, 2024

具有拜占庭容错和证明快速收敛性的分散联邦策略梯度

TL;DR分布式强化学习中,我们提出了第一种去中心化的拜占庭容错方法,通过结合强大的聚合和拜占庭容错协议来降低对受信任中央实体的需求,实验结果表明其对参与代理数量的加速和抵抗不同拜占庭攻击具有可靠性。