Nov, 2023

离线目标条件强化学习的评分模型

TL;DR基于离线数据集、无初始监督、且没有判别器的分布匹配方法 (SMORe) 在 GCRL 中取得了显著的性能提升。