Jun, 2024

学习帕累托集合用于多目标连续机器人控制

TL;DR多目标控制问题中,我们提出了一种简单高效的多目标强化学习算法,通过单独的超网络在高维策略参数空间中学习连续的 Pareto 解集,实现了不同用户偏好下的多种优化策略网络的直接生成,并在多个连续机器人控制问题上取得了最佳性能以及最少训练参数。