Dec, 2019

通过离策略分布匹配实现的模仿学习

TL;DR本研究提出一种名为 ValueDICE 的基于离线数据的策略优化算法,它使用分布匹配方法来提高数据利用效率并优化如何评估专家演示数据的不同媒介投放,实现了在模拟学习测试上的最佳性能。