BriefGPT.xyz
Ask
alpha
关键词
reward-free rl
搜索结果 - 2
引导安全探索的强化学习
安全是扩展强化学习应用的关键。我们提出了一种约束无奖励强化学习方法,通过在受控环境中训练引导智能体以安全探索,最终实现有效的安全传输学习,帮助学生机器人更快地解决目标任务。
PDF
a year ago
基于约束的强化学习的简单无回报方法
本文探讨奖励自由强化学习和受限制的强化学习之间的联系,在标记 MDP 设置中,我们提出了一种简单的元算法,利用现有的奖励自由 RL 解算器,对受限制的强化学习问题进行直接求解, 在现有结果的基础上匹配最佳结果,同时在线性函数近似下,我们直接
→
PDF
3 years ago
Prev
Next