BriefGPT.xyz
Ask
alpha
关键词
model-based policy search
搜索结果 - 2
从离线数据中学习可变目标的控制策略
离线强化学习是一种获取动态系统先进控制策略的可行方法,尤其是在无法直接与环境互动时。本文介绍了一种名为可变目标策略(VOP)的基于模型的策略搜索方法的概念扩展。通过此方法,策略被训练以有效地泛化各种目标,这些目标对奖励函数进行参数化。我们证
→
PDF
a year ago
机器人和控制中的高斯过程数据有效学习
本文介绍了一种模型基于策略搜索的自动学习方法,使用概率非参数高斯过渡模型从数据中提取更多信息,以提高学习速度并降低模型误差的影响,已在真实机器人和控制任务中得到了应用。
PDF
9 years ago
Prev
Next