无偏权重最大化
通过使用 $L^2$ 范数 代替隐藏单元的奖励信号,Weight Maximization 能够解决 REINFORCE 学习规则中出现的高方差问题,使得深度神经网络的训练更加高效。此方法同时解决了反向传播算法中存在的可行性问题,并能够用于训练连续值和离散值单元的神经网络。
Oct, 2020
使用 Boltzmann 机器或经常性网络进行协调探索,从而加快多个基于 REINFORCE 的随机和离散单元的训练速度,甚至超过直接传递估计器 (STE) 反向传播算法。
Jul, 2023
提出了一种新的神经网络层间激活的相关信息最大化的正式框架,从而解决了传统反向传播算法的生物学上的可信度问题,并提供了一种自然的权重对称问题的解决方案。
Jun, 2023
提出了一种新的、高效的、基于 Backprop 的方法 Bayes by Backprop,用于在神经网络的权重上学习概率分布,通过最小化压缩成本(即变分自由能或边缘似然的预期下界)来规范权重。该方法在 MNIST 分类的任务上表现出与 dropout 相当的性能。在非线性回归问题中,学到的权重的不确定性可以用来提高泛化能力,并且可以用来驱动在强化学习中的探索和开发之间的平衡。
May, 2015
本文提出了一种基于贝叶斯学习规则的方法来解决训练二进制神经网络的有限制的问题。该算法不仅能够获得最先进的性能,而且还能够估计不确定性以避免灾难性遗忘。
Feb, 2020
使用贝叶斯和集成方法,在深度学习中处理不确定性量化和跨分布检测问题,通过最大熵原则来解决预测多样性不足的问题,提出了一种权重参数化的方法,通过奇异值分解来增加权重熵以实现更有效的算法。
Sep, 2023
本文提出了一种混合学习方法,即每个神经元使用强化学习策略来学习如何近似反向传播算法提供的梯度,并给出了对于特定类别的网络中,该方法收敛到真实梯度的证明。在前馈和卷积神经网络中,我们经验证明我们的方法学习如何逼近梯度,并且可以匹配或超越精确梯度学习的性能。学习反馈权重提供了一个生物学上可行的机制来实现良好的性能,无需精确的预先指定学习规则。
Jun, 2019
研究了具有离散权重的人工神经网络中学习过程的优化,提出了一种被称为 “鲁棒集合” 的新量度来抑制被隔离的配置所困住,并分析了稀有但极度密集和可访问的网络配置区域的存在。为解决此问题,提出了一个算法方案来定义目标,并证明了该算法在从驱动分配的稠密状态中提取信息时的有效性。
May, 2016
本研究提出了一种基于相互信息最大化学习层次策略潜变量的 HRL 方法,用于优化连续控制任务中的强化学习性能,并介绍了优势加权重要性采样和确定性策略梯度方法,以实现选项策略选择和优化。实验结果表明,该方法可以学习多样化的选项并增强连续控制任务中强化学习的性能。
Jan, 2019