ICMLJul, 2020

数据效率高的事后无偏策略选项学习

TL;DR研究介绍了一种数据高效的选项学习算法 - 后见之明离线选项(HO2),并证明其在现有基准测试中表现优异,结果强调了时间和操作抽象的重要性以及离线培训和信任区域约束,特别是在来自原始像素输入的具有挑战性的模拟 3D 机器人操作任务中。