Mar, 2023

改进的分布式鲁棒强化学习样本复杂度界限

TL;DR本文提出了一种分布式抗干扰强化学习算法,即 Robust Phased Value Learning 算法,该算法针对四种不同的差距度量指标的不确定性集合进行求解,得到的结果在样本复杂度方面比现有结果具有更好的一致性。