- STAS: 多智能体强化学习的时空回报分解
提出了一种名为 Spatial-Temporal Attention with Shapley(STAS)的新方法,该方法可以在时间和空间维度上学习信用分配,在多智能体强化学习中实现有效的空间 - 时间信用分配,优于所有现有的基线。
- 离线预训练加速探索和表示学习
从单个离线数据集中分别学习噪声对比估计的状态表示和辅助奖励模型,能够显着提高 NetHack 基准测试的样本效率,同时突出了我们实验设置的各种组成部分和关键洞察。
- 面向合作多智能体强化学习的双自我感知价值分解框架(无个体全局最大值)
在合作多智能体强化学习领域,我们提出了一种基于双重自我意识概念的价值分解框架,它完全拒绝了个体全局最大原则。通过使用明确的搜索过程,价值函数分解可以忽略 IGM 假设。我们还提出了一种新颖的抗自我探索机制,以避免算法陷入局部最优解。作为第一 - 多智能体价值分解的对比身份感知学习
通过对代理商的属性进行对比性学习,从而突破多代理多样性限制,增强价值分解网络的可区分性,提高合作能力
- 对比内省,识别强化学习中的关键步骤
该论文提出了一种将离线对比学习结合强化学习技术来识别任务中关键步骤的算法 ConSpec,它通过学习关键步骤的原型来提供信号奖励。该算法的原型具有两个关键的优势:它们能够快速地鉴别所有关键步骤,同时在感知特征被改变时很容易地进行分布外泛化。 - RACA: 基于关系感知的多智能体深度强化学习中的即时合作信用分配
本研究提出了一种名为 RACA 的新方法,利用基于图形的关系编码器对代理之间的拓扑结构进行编码,并利用基于注意力机制的观测抽象机制,实现了在测试时间的 ad-hoc 合作场景中的零启动通用化。
- 前序特征
探究了一种名为 'Predecessor Features' 的算法,它通过维护一个近似过去积累经验和的方法,允许将时序差分误差准确地传播到比传统方法更多的前身状态中,从而大大提高了增强学习的效率和性能。
- 能量模型微观推断极限下的反向传播:预测编码、平衡传播和对比性赫布学习的统一
本文提供了能量基模型(EBMs)在逼近反向传播(BP)方面的综合理论,统一了预测编码、平衡传播和对比 Hebbian 学习等算法,从 EBMs 的自由相平衡这一简单而普遍的数学特性出发,在不同的能量函数下进行选择以得出一类逼近 BP 的算法 - 分层强化学习中的信用分配
研究探讨了如何从常规多步强化学习的角度看待分层信用分配,并将其改进为能够提高代理性能的层次算法。
- AAAIHindsight 网络信用分配:离散随机单元网络中高效的信用分配
本文提出了一种新的梯度估计算法 HNCA,用于离散随机单元网络的信用分配,该方法通过基于其输出影响其子节点的程度来分配信用,证明 HNCA 产生的无偏梯度估计与 REINFORCE 估计器相比具有更小的方差,同时计算成本与反向传播相似。
- 通过广播全局误差向量进行信用分配
探索了全局广播学习信号以及本地权重更新在深度神经网络训练中的作用,提出了一种名为全局误差向量广播 (GEVB) 的学习规则以及一类名为向量化非负网络 (VNNs) 的 DNNs,证明这个权重更新规则在初始化时与梯度匹配,不需要反向传播,并且 - 分解 Soft Actor-Critic 方法用于合作多智体强化学习
本文提出了一种新的分解式多智能体软演员 - 批评家(mSAC)方法,在 StarCraft II 微观管理合作式多智能体基准测试中获得高效和优异的性能。
- 丘脑皮质通路对神经系统中信用分配的贡献
本综述研究了动物大脑进化的过程和神经电路的构建,以及如何解决结构、内容和时间信用分配的计算问题,概括了指出丘脑在元学习中发挥着关键作用,同时提出丘脑的皮层和基底节相互作用可以同时解决三个信用分配问题的观点。
- 模型无关强化学习中的反事实信用分配
本研究应用反事实的思想来解决强化学习领域中 action 对于未来奖励的影响以及技能和运气的区分问题,并提出了一种使用未来条件价值函数作为基准的策略梯度算法,以及加入了不确定因素的验证和实验,证明了该算法有效性和低方差的特点。
- Shapley Flow:一种基于图的模型解释方法
提出了一种称之为 Shapley Flow 的新颖方法来解释机器学习模型,它可以考虑所有因果图,并将信用分配给边,而不是节点。
- 轨迹空间平滑的学习引导奖励
该论文介绍了一种使用轨迹空间平滑来学习指导奖励的算法,并阐明了该算法在解决强化学习中长期时序信用分配问题上的优越性。
- 多智能体强化学习中的图卷积值分解
该论文提出了一种新颖的基于图神经网络的多智能体深度强化学习价值函数分解框架,包括目标团队代理作为一组完整有向图的节点、采用注意机制进行边权重控制、推出混合 GNN 模块用于把团队状态 - 动作价值函数分解为单独智能体的观测 - 动作价值函数 - 离策略多智体分解策略梯度
本文研究多智能体问题中现有的算法相比于最先进的价值方法存在的性能差异,并提出了一种多智能体分解的策略梯度方法,该方法引入了价值函数分解的想法,并针对离散和连续动作空间中的集中 - 分散不匹配和信用分配问题进行了解决。实验结果表明,该方法在同 - 具有图卷积通信的反事实多智体强化学习
该研究提出了一种基于图卷积和多因素策略梯度的架构,用于解决在多观察环境下多智能体之间合作最大化系统功用时的通信和奖励分配问题,并在一系列任务中取得了优异表现。
- 用于深度多智能体强化学习的 Q 值路径分解
本论文提出一种名为 Q-value Path Decomposition(QPD)的方法,该方法利用集成渐变归因技术对深度多智能体强化学习中的全局 Q 值进行分解,以便为代理分配信用,解决了多智能体信用分配的关键挑战,该方法在 StarCr