ICLRFeb, 2022

重新思考 ValueDice:它真的可以提高性能吗?

TL;DR该研究探究了 ValueDice 算法在离线和在线设置下相对于经典方法行为克隆的性能改进,发现其离线表现优于行为克隆算法并且可以在低数据情况下通过正则化达到相似的表现。此外,研究还发现,ValueDice 算法存在局限性,只在完整的专家轨迹下才能表现优异。