May, 2023

Wasserstein逆强化学习在多目标优化中的仿真证明

TL;DR本文证明了Wasserstein反向强化学习可以在有限次迭代中实现学习者的奖励值模仿专家的奖励值,同时可在多目标优化中,实现学习者的最优解的字典序问题模仿专家的最优解。