BriefGPT.xyz
Ask
alpha
关键词
high-dimensional policy parameter space
搜索结果 - 1
学习帕累托集合用于多目标连续机器人控制
多目标控制问题中,我们提出了一种简单高效的多目标强化学习算法,通过单独的超网络在高维策略参数空间中学习连续的 Pareto 解集,实现了不同用户偏好下的多种优化策略网络的直接生成,并在多个连续机器人控制问题上取得了最佳性能以及最少训练参数。
PDF
9 days ago
Prev
Next