提升软Q学习

Jun, 2024

Boosting Soft Q-Learning by Bounding

Jacob Adamczyk, Volodymyr Makarenko, Stas Tiomkin, Rahul V. Kulkarni

TL;DR一个代理人利用过去经验来高效解决新任务的能力是关键，本研究聚焦于使用值函数估计来获得对新任务解的零-shot近似。我们展示了在软Q-learning中，任何值函数估计都可以用来导出对最优值函数的双边界限。得出的界限带来了新的提升训练性能的方法，我们通过实验证实了这一点。值得注意的是，我们发现所提出的框架还建议了一种更新Q函数的替代方法，从而提升了性能。

Abstract

An agent's ability to leverage past experience is critical for efficiently solving new tasks. Prior work has focused on using value function esti