BriefGPT.xyz
Ask
alpha
关键词
extremely noisy environment
搜索结果 - 1
增强偏好驱动的强化学习中的鲁棒性:动态稀疏性提升
为了在人类中心环境中成功融入自主代理,代理应该能够从人类的本地环境中学习和适应。基于偏好的强化学习 (PbRL) 是一种能够从人类偏好中学习奖励函数的有希望的方法,使得强化学习代理能够根据人类的欲望来调整其行为。然而,人类生活在一个充满各种
→
PDF
a month ago
Prev
Next