Jun, 2024

提升软Q学习

TL;DR一个代理人利用过去经验来高效解决新任务的能力是关键,本研究聚焦于使用值函数估计来获得对新任务解的零-shot近似。我们展示了在软Q-learning中,任何值函数估计都可以用来导出对最优值函数的双边界限。得出的界限带来了新的提升训练性能的方法,我们通过实验证实了这一点。值得注意的是,我们发现所提出的框架还建议了一种更新Q函数的替代方法,从而提升了性能。