Mar, 2023

通过松弛分布匹配实现离线次优演示的模仿学习

TL;DR本文提出了一种针对少量优秀数据和大量劣质数据的离线模仿学习问题的解决方案,并且采用了一种松弛的 f-分布来对策略的支持进行规范化,结果表明在六个标准连续控制环境中,相较于最优先的离线模仿学习方法,本文提出的 RelaxDICE 平均性能提升了30%以上。