Oct, 2023

逆强化学习中通过最优传输理论理解奖励模糊性

TL;DR该论文利用最优传输理论(OT)提供了一个新的视角,通过利用最优传输中的 Wasserstein 距离,建立了一个几何框架,可以量化奖励的模糊性,并确定奖励函数的中心表示或重心,为几何解释锚定的稳健逆 RL 方法提供了结构化的方法来解决高维奖励模糊问题。