Hindsight 网络信用分配:离散随机单元网络中高效的信用分配
本文介绍了一种基于 Counterfactual Contribution Analysis(COCOA)的信用分配算法,在衡量行动对未来奖励的影响时,通过量化一个反事实的查询来实现精确的信用分配,即 “如果智能体采取另一个行动,它仍然能达到这个奖励吗?”,在评估长期信用分配能力的一套问题上进行了实验,并通过与 HCA 和常见基线比较表明,模型信用分配算法的改进性能由于较低的偏差和方差,为实现样本高效强化学习开辟了新的道路。
Jun, 2023
使用 Boltzmann 机器或经常性网络进行协调探索,从而加快多个基于 REINFORCE 的随机和离散单元的训练速度,甚至超过直接传递估计器 (STE) 反向传播算法。
Jul, 2023
通过对选择性赋权的 TD 方法进行统一描述和理解,介绍了如何将赋权应用于基于值的学习和规划算法中,以调节预测和控制问题中的后向信用分配。在这个空间中,我们还确定了一些现有的在线学习算法,它们可以作为特例进行选择性分配信用,并增加了一些可以反事实分配信用的算法,使得信用可以从轨迹和策略之外进行分配。
Feb, 2022
本研究提出了一种名为 RACA 的新方法,利用基于图形的关系编码器对代理之间的拓扑结构进行编码,并利用基于注意力机制的观测抽象机制,实现了在测试时间的 ad-hoc 合作场景中的零启动通用化。
Jun, 2022
本文提出了一种混合学习方法,即每个神经元使用强化学习策略来学习如何近似反向传播算法提供的梯度,并给出了对于特定类别的网络中,该方法收敛到真实梯度的证明。在前馈和卷积神经网络中,我们经验证明我们的方法学习如何逼近梯度,并且可以匹配或超越精确梯度学习的性能。学习反馈权重提供了一个生物学上可行的机制来实现良好的性能,无需精确的预先指定学习规则。
Jun, 2019
本文提出了一种用于神经网络的随机化方法,即随机配置网络,其采用随机分配输入权重和偏差节点的方法,以监督机制为基础,通过分析地计算输出权重,建立了三种回归问题的版本。研究结果显示,该方法具有较少人为干预的优点,可自适应随机参数设定,学习速度快,泛化能力强。
Feb, 2017