Feb, 2020

可规划的 MDP 同态逼近:在行动下的等变性

TL;DR该研究利用行动等变性原理进行表示学习,提出了一种对学习到的表示进行行动等变性限制的对比损失函数并证明了当损失函数为零时的决策过程是同态的。该方法能够获得效果更好的表示并具有更好的泛化能力。