Apr, 2024

显式利普希茨值估计增强策略对扰动的稳健性

TL;DR在机器人控制任务中,强化学习(RL)在模拟中训练的策略在部署到物理硬件上时常常出现性能下降的问题,本文研究了通过利普希茨正则化来改善近似值函数的梯度条件,从而提高训练后的鲁棒性。通过将利普希茨正则化与快速梯度符号方法相结合,我们的实验结果表明了这种方法在一些连续控制基准测试中的优势。