AAAIDec, 2023

通过 $l_∞$ 利普希茨策略网络提高强化学习对观测扰动的鲁棒性

TL;DR我们提出了一种名为 SortRL 的新型鲁棒性强化学习方法,通过网络架构的角度改善 DRL 策略对观测扰动的鲁棒性,并设计了一个训练框架,解决给定任务同时保持对观测的鲁棒性。多个实验表明 SortRL 在不同扰动强度下实现了最先进的鲁棒性能。