BriefGPT.xyz
Ask
alpha
关键词
structural credit assignment
搜索结果 - 2
结构化信用分配与协调探索
使用 Boltzmann 机器或经常性网络进行协调探索,从而加快多个基于 REINFORCE 的随机和离散单元的训练速度,甚至超过直接传递估计器 (STE) 反向传播算法。
PDF
a year ago
AAAI
自利强化学习智能体竞争学习
通过使用 $L^2$ 范数 代替隐藏单元的奖励信号,Weight Maximization 能够解决 REINFORCE 学习规则中出现的高方差问题,使得深度神经网络的训练更加高效。此方法同时解决了反向传播算法中存在的可行性问题,并能够用于
→
PDF
4 years ago
Prev
Next