Nov, 2023

离线强化学习的预测离策略 Q 学习(POP-QL)的稳定化

TL;DR稳定离线策略 Q 学习的新方法,通过重新加权离线样本和限制策略以防止发散和减少价值逼近错误,能在标准基准测试中竞争性地表现,并在数据收集策略明显次优的任务中胜过竞争方法。