BriefGPT.xyz
大模型
Ask
alpha
关键词
value-based deep reinforcement learning
搜索结果 - 1
小批次深度强化学习
在价值导向的深度强化学习中,回放记忆中的批大小参数指定了每次梯度更新要采样多少转换。尽管在提出新算法时通常不会调整此值,但它对于学习过程非常关键。在这项工作中,我们进行了一项广泛的实证研究,表明减小批大小可能导致许多显著的性能提升;这令人惊
→
PDF
9 months ago
Prev
Next