Jun, 2024

通过麦克劳林展开稳定极限 Q 学习

TL;DR通过应用 Maclaurin 展开来改进 Extreme Q-learning 方法,提高了稳定性,并允许根据展开阶数调整误差分布假设,从而显著稳定了在线强化学习任务,同时提高了离线强化学习任务的性能。