BriefGPT.xyz
Ask
alpha
关键词
q-value approximation
搜索结果 - 2
时差动力学的特征子空间及其在强化学习中改善价值估计的应用
提出了一种新的深度强化学习的价值估计方法:Eigensubspace Regularized Critic (ERC),该方法可以更高效、更稳定地进行价值估计,并在 DMControl 基准测试中,ERC 优于其他先进方法在 20 个任务上
→
PDF
a year ago
ICML
群等变深度强化学习
本文提出使用 Equivariant CNNs 训练强化学习智能体并研究其在对称变换方面的归纳偏差,结果表明在高度对称的环境中,使用 Equivariant CNNs 可以显著提高智能体的性能和样本效率,同时还需要更少的参数,而且它们对仿射
→
PDF
4 years ago
Prev
Next