Sep, 2018

多目标深度强化学习中的动态权重

TL;DR本文提出了一种多目标 Q 网络,可以处理动态权重下的多目标强化学习问题,并引入了多样性经验回放方法以应对动态权重下的非稳定性问题。实验结果表明,该方法在权重变化场景和问题领域上的性能优于现有的算法。