Jan, 2024

SPQR:使用尖峰随机模型控制 Q - 集合独立性的强化学习

TL;DR为了克服过度估计偏差,在深度强化学习中提出了一种新的正则化损失函数,基于随机矩阵理论的销钉 Wishart Q 集合独立正则化(SPQR),以增强多个 Q 函数的多样性,通过实现 SPQR 在在线和离线集合 Q 学习算法中进行实验证明,SPQR 在在线和离线强化学习基准测试中表现出色。