BriefGPT.xyz
Ask
alpha
关键词
reward tuning
搜索结果 - 1
ICML
演化奖励函数自动化强化学习
使用 AutoRL,一种进化层,通过将奖励调整视为超参数优化并训练一组 RL 代理来寻找最大化任务目标的奖励,使得评估了两个 RL 算法上四个 Mujoco 连续控制任务之后 AutoRL 在改善之前的工作基础之上表现出提升,复杂任务上的提
→
PDF
5 years ago
Prev
Next