BriefGPT.xyz
大模型
Ask
alpha
关键词
diversity injection methods
搜索结果 - 1
SPQR:使用尖峰随机模型控制 Q - 集合独立性的强化学习
为了克服过度估计偏差,在深度强化学习中提出了一种新的正则化损失函数,基于随机矩阵理论的销钉 Wishart Q 集合独立正则化(SPQR),以增强多个 Q 函数的多样性,通过实现 SPQR 在在线和离线集合 Q 学习算法中进行实验证明,SP
→
PDF
6 months ago
Prev
Next