Feb, 2024

价值增益的条件监督学习用于离线强化学习

TL;DR通过结合 Neural Tangent Kernel 分析的价值函数,Value-Aided Conditional Supervised Learning (VCS) 方法有效地克服了 return-conditioned supervised learning (RCSL) 和 value-based methods 所面临的实际挑战。实证研究表明,VCS 不仅明显优于 RCSL 和 value-based methods,而且在各种离线强化学习基准测试中始终达到甚至超过最高的轨迹回报,为离线强化学习打开了新的道路,并推动了进一步的创新。