reward tuning | BriefGPT - AI 论文速递

关键词reward tuning

搜索结果 - 1

ICML演化奖励函数自动化强化学习
使用 AutoRL，一种进化层，通过将奖励调整视为超参数优化并训练一组 RL 代理来寻找最大化任务目标的奖励，使得评估了两个 RL 算法上四个 Mujoco 连续控制任务之后 AutoRL 在改善之前的工作基础之上表现出提升，复杂任务上的提
PDF5 years ago