Mar, 2022

裁剪优势学习增加鲁棒性的行动间隙

TL;DR本文介绍了一种新方法 clipped Advantage Learning,该方法能平衡行动差距和快速收敛的关系,同时保持稳健性并在多个强化学习实验中得到验证。