BriefGPT.xyz
Jun, 2024
提升软Q学习
Boosting Soft Q-Learning by Bounding
HTML
PDF
Jacob Adamczyk, Volodymyr Makarenko, Stas Tiomkin, Rahul V. Kulkarni
TL;DR
一个代理人利用过去经验来高效解决新任务的能力是关键,本研究聚焦于使用值函数估计来获得对新任务解的零-shot近似。我们展示了在软Q-learning中,任何值函数估计都可以用来导出对最优值函数的双边界限。得出的界限带来了新的提升训练性能的方法,我们通过实验证实了这一点。值得注意的是,我们发现所提出的框架还建议了一种更新Q函数的替代方法,从而提升了性能。
Abstract
An
agent
's ability to leverage past
experience
is critical for efficiently solving new tasks. Prior work has focused on using
value function esti
→