Jan, 2023

从零开始设计离线强化学习目标

TL;DR本文提出了一种基于对比学习框架的评分指标,能够更准确地排名离线策略并用于监督式的离线策略优化,其在各种离线增强学习基准测试中表现优异,需求的策略网络容量更低、无需额外的网络配合。