Aug, 2023

细致估计,大胆探索

TL;DR基于双Q函数框架,引入一种新的探索策略来解决连续动作空间中政策梯度法探索的问题,通过使用贪婪Q值和保守Q值的加权和来更新Q值,将行动探索与Q值更新相结合,并在Mujoco基准测试中展示了优越的性能。