Jun, 2024

增强偏好驱动的强化学习中的鲁棒性:动态稀疏性提升

TL;DR为了在人类中心环境中成功融入自主代理,代理应该能够从人类的本地环境中学习和适应。基于偏好的强化学习 (PbRL) 是一种能够从人类偏好中学习奖励函数的有希望的方法,使得强化学习代理能够根据人类的欲望来调整其行为。然而,人类生活在一个充满各种信息的世界中,其中大部分与完成特定任务无关。本工作提出了第一个利用动态稀疏训练原理学习健壮奖励模型并能够专注于任务相关特征的 PbRL 算法 R2N (Robust-to-Noise)。我们在极其嘈杂的环境设置中研究了 R2N 的有效性,该环境中高达 95% 的状态特征都是干扰项。通过与模拟教师的实验,我们证明了 R2N 能够调整其神经网络的稀疏连接性以专注于任务相关特征,在多个运动和控制环境中明显优于几种最先进的 PbRL 算法。