Jan, 2023

单轨迹鲁棒分布式强化学习

TL;DR提出了分布式鲁棒 Q 学习及其平均奖励变体,且在单轨迹训练的基础上,给出了渐近收敛保证和实验验证,证明其在扰动环境下的优越性。