MMSep, 2022

量化先于选择:活跃动态偏好在强化学习中的鲁棒性

TL;DR通过引入主动动态偏好方法(Active Dynamics Preference),对系统随机参数进行有效选择,并在四个机器人运动任务中进行验证,表明此方法具有超强的适应性和鲁棒性,可有效提高机器人环境下的一致性。