Jun, 2021

软 DICE 用于模仿学习:重思离线策略分布匹配

TL;DRSoftDICE 是一种采用熵正则化的离线算法,用于解决样本有效的模仿学习中的分布匹配问题,其表现取得了 Mujoco 基准任务上的最佳结果。