Sep, 2023

连续强化学习中的双 Q 学习适应

TL;DR提出了一种基于混合策略、利用两个独立网络来校正过度估计偏差的新方法,在少量 MuJoCo 环境上展示了有前景的接近 SOTA 的结果。