Dec, 2023

通过$l_∞$利普希茨策略网络提高强化学习对观测扰动的鲁棒性

TL;DR我们提出了一种名为SortRL的新型鲁棒性强化学习方法,通过网络架构的角度改善DRL策略对观测扰动的鲁棒性,并设计了一个训练框架,解决给定任务同时保持对观测的鲁棒性。多个实验表明SortRL在不同扰动强度下实现了最先进的鲁棒性能。