Oct, 2023

基于距离 - 排序的序贯奖励学习的次优示教的逆强化学习

TL;DR我们引入了 DRASRL 框架,该框架考虑了路径排序和路径之间的差异度,通过测量轨迹生成的策略之间的距离来消除奖励的歧义,同时利用对比学习技术来推断表示空间中的嵌入,结合成对排序损失函数将排序信息纳入到潜在特征中,并采用 Transformer 架构来捕捉潜在空间中的上下文依赖,从而实现更准确的奖励估计。经过广泛的实验,我们的 DRASRL 框架在性能上显著优于先前的 SOTA 方法。