Jun, 2024

策略性保守型 Q 学习

TL;DR提出了一种名为 Strategically Conservative Q-Learning (SCQ) 的新框架,用于解决离线强化学习中的逼近误差和分布外动作的问题,在 D4RL 基准任务上表现优于现有方法。