policy gradient learner | BriefGPT

关键词policy gradient learner

搜索结果 - 1

具有次线性遗憾的终身强化学习安全策略搜索
开发一种在对抗环境下实施多任务在线学习、可以执行安全约束的终身策略梯度学习算法，通过在基准动态系统和四旋翼控制应用中验证，实现了终身策略搜寻的次线性遗憾。
PDF9 years ago