Oct, 2023
基于距离 - 排序的序贯奖励学习的次优示教的逆强化学习
Distance-rank Aware Sequential Reward Learning for Inverse Reinforcement Learning with Sub-optimal Demonstrations
Lu Li, Yuxin Pan, Ruobing Chen, Jie Liu, Zilin Wang...
TL;DR我们引入了 DRASRL 框架,该框架考虑了路径排序和路径之间的差异度,通过测量轨迹生成的策略之间的距离来消除奖励的歧义,同时利用对比学习技术来推断表示空间中的嵌入,结合成对排序损失函数将排序信息纳入到潜在特征中,并采用 Transformer 架构来捕捉潜在空间中的上下文依赖,从而实现更准确的奖励估计。经过广泛的实验,我们的 DRASRL 框架在性能上显著优于先前的 SOTA 方法。