Aug, 2023

一种针对非平稳环境下多目标强化学习的稳定策略引导算法

TL;DR提出了一种能够在非稳态环境中以在线方式稳健演化一个凸覆盖策略集的新型多目标强化学习算法,并在稳态和非稳态环境中与现有算法进行比较,结果表明该算法在非稳态环境中显著优于现有算法,并在稳态环境中达到可比较的结果。