May, 2023

多目标优化的逆强化学习收敛证明

TL;DR对于多目标优化问题,我们用射影次梯度方法展示了 Wasserstein 逆强化学习(WIRL)的收敛性,通过将优化问题的逆问题形式化为等价于多目标优化的 WIRL。此外,我们证明了逆强化学习(最大熵逆强化学习,引导成本学习)在使用射影次梯度方法解决多目标优化时的收敛性。