Aug, 2023

细致估计,大胆探索

TL;DR基于双 Q 函数框架,引入一种新的探索策略来解决连续动作空间中政策梯度法探索的问题,通过使用贪婪 Q 值和保守 Q 值的加权和来更新 Q 值,将行动探索与 Q 值更新相结合,并在 Mujoco 基准测试中展示了优越的性能。