Sep, 2023

边缘化重要性采样用于离环境策略评估

TL;DR基于强化学习的方法在现实世界的机器人上训练和部署策略是常常样本低效的,因此本论文提出了一种新方法,通过结合模拟器和真实世界的离线数据来评估任何策略的真实世界性能,该方法使用了边际化重要性采样的框架,通过在模拟器中引入目标策略的占据情况作为中间变量,并将密度比率学习为两个可以单独学习的项的乘积,从而解决了大密度比率和间接监督的问题。通过在 Sim2Sim 环境以及 Sim2Real 任务中的验证实验,结果表明该方法能够在多个 Sim2Sim 间隙、目标策略和离线数据收集策略上得到很好的推广效果。