Feb, 2022

离线强化学习的支持策略优化

TL;DR本文提出了一种名为 SPOT 的方法,它是基于密度支持约束的理论正式化,采用了基于 VAE 的密度估计器来明确建模行为策略的支持集,并提出了一个简单而有效的基于密度的正则化项,可非侵入地插入到现成的 off-policy RL 算法中。SPOT 在离线 RL 的标准基准测试中实现了最先进的性能。由于其可插拔的设计,来自 SPOT 的离线预训练模型也可以无缝地应用于在线微调。