May, 2023

在线非随机模型无关强化学习

TL;DR该研究探讨了针对动态或敌对环境的强化学习算法,并引入基于干扰信号的新型政策以提高适应性和鲁棒性,并在标准 RL 基准测试中进行了评估并证明了改进的鲁棒性。