Feb, 2024

基于价值的多目标强化学习中的价值函数干扰和贪婪动作选择

TL;DR多目标强化学习算法扩展了传统的强化学习方法以解决存在多个冲突目标的问题,通过向量值奖励进行表示。我们在此论文中展示了,如果用户的效用函数将各向量值映射到相似的效用级别,这可能导致代理学到的值函数受到干扰,从而收敛到次优策略。尽管在确定贪婪动作时避免使用随机打破关系,可以缓解由值函数干扰引起的问题,但并不能完全克服这个问题。