BriefGPT.xyz
Ask
alpha
关键词
policy gradient learner
搜索结果 - 1
具有次线性遗憾的终身强化学习安全策略搜索
开发一种在对抗环境下实施多任务在线学习、可以执行安全约束的终身策略梯度学习算法,通过在基准动态系统和四旋翼控制应用中验证,实现了终身策略搜寻的次线性遗憾。
PDF
9 years ago
Prev
Next