BriefGPT.xyz
大模型
Ask
alpha
关键词
reward propagation
搜索结果 - 2
使用生物合理奖励传播调整卷积脉冲神经网络
该论文提出一种基于奖励传播的算法,该算法应用于脉冲神经网络(SNN)架构中的脉冲卷积和全连接层,该算法能够替代标准反向传播算法,实现对 SNN 的训练。使用该算法的 SNN 在空间和时间任务上的表现已经得到验证,达到了 BP-SNN 的类似
→
PDF
4 years ago
一天内学会玩:通过最优收敛加速深度强化学习
论文提出一种新的强化学习算法,将深度 Q-learning 与约束优化方法相结合,以加强最优性并促进更快的奖励传播,并得出了在 Arcade Learning Environment 中的性能评估结果,表明该方法能够显著缩短训练时间并提高准
→
PDF
8 years ago
Prev
Next