- PlanDQ: 分层计划编排通过 D-Conductor 和 Q-Performer
提出一种用于离线强化学习的分层规划器 PlanDQ,其中包括高层的扩散式规划器 D-Conductor,用于指导低层策略实现子目标,并采用 Q-learning 的方法 Q-Performer 来完成这些子目标,实验结果表明 PlanDQ - 通过行为分解进行策略优化来增强语言代理
通过将语言代理优化从动作层面分解到令牌层面,本文提出了通过行为分解实现更细粒度的信用分配和对于不受限制的行动空间中可管理的优化复杂性,进而增强了语言代理与交互环境的学习效率和泛化能力。
- 学习的非马尔可夫安全性约束下的安全强化学习
在安全强化学习中,我们设计了一个安全模型来评估部分状态 - 动作轨迹对安全性的贡献,并使用 RL-as-inference 策略推导出了一种有效的优化安全策略的算法,最后,我们提出了一种动态调整奖励最大化与安全合规性权衡系数的方法,实证结果 - 从 $r$ 到 $Q^*$:您的语言模型暗地里是一个 Q 函数
使用引导反馈的强化学习是生成式人工智能模型成功的关键,本研究讨论了直接偏好优化 (DPO) 作为替代方法的应用,通过理论和实证结果证明了在令牌级马尔科夫决策过程 (MDP) 中,DPO 能够在信用分配和搜索算法等方面产生有意义的改进。
- 反向传播:超越空间、时间与大脑
在生物神经网络中实现高效的学习需要对个体突触进行适应性调节,然而,由于时空依赖性的限制,目前对于如何进行高效的信用赋值仍然是一个值得研究的问题。本文提出了一种称为广义潜在均衡(GLE)的计算框架,用于在具有时空连续性神经动力学的物理网络中实 - 基于 Shapley 值的多智能体强化学习:理论、方法及其在能源网络中的应用
本论文通过合作博弈理论研究了多智能体强化学习中的信用分配问题,提出了一种基于 Markov Shapley 值的信用分配方案,并应用于能源网络的真实问题上。
- 神经科学启发的机器学习综述
这篇论文调研了模拟生物可行的信用分配规则在人工神经网络中的多个重要算法,并讨论了它们在不同科学领域的解决方案以及在 CPU、GPU 和神经形态硬件上的优势,最后讨论了未来需要解决的挑战,以使这些算法在实际应用中更加有用。
- AAAI从过去到未来:重新思考资格追踪
我们介绍了对信用分配和政策评估挑战的新视角,并引入了双向值函数的概念,它可以同时考虑未来期望回报和过去累计回报,通过实验证明这种价值函数在增强政策评估过程中的有效性。
- MACCA: 离线多智能体强化学习与因果信用分配
在离线多智能体强化学习中,通过将生成过程建模为动态贝叶斯网络,我们的方法 MACCA 可以准确、可解释地分配每个个体的贡献,并且在离线数据集的设置下,已证明了其建模的正确性。实验证明,MACCA 在离散和连续动作环境中优于最先进方法并提高了 - 脑启发的机器智能:神经生物学可行的信用分配综述
通过对受神经生物学启发或影响的人工神经网络中进行信用分配的算法的调查,我们提出了一个分类法,根据学习算法回答复杂自适应神经系统突触可塑性机制的核心问题的方式,整理了不断增长的大脑启发学习过程集合为六个通用家族,并在反向传播和其已知批评的背景 - 脑样柔性视觉推理:通过利用反馈前馈对齐
通过反馈与前馈路径的关联对齐机制,提出了一种学习算法 Feedback-Feedforward Alignment (FFA),通过共同优化分类和重建任务,使得反馈连接具有去噪、解决遮挡、幻觉和想象等视觉推理功能,并提供了比传统的反向传播方 - 抑制性神经元环路可控制突触可塑性的符号
神经元电路如何实现学分分配是系统神经科学中一个未解决的核心问题,本文通过一种在自适应控制理论框架内得出的可行的微电路模型和 Hebb 学习规则展示了如何解决这一矛盾,同时对兴奋性可塑性的抑制调节提出了具体预测。
- Delta-AI:稀疏图模型中的摊销推理的局部目标
通过稀疏概率图模型中的摊销推理算法,我们能够基于策略学习对象的局部属性生成适用于脱机训练的局部损失,从而有效地提取感兴趣的边缘和条件分布,并对稀疏因子结构的潜变量模型进行训练。
- 离线强化学习中的潜在扩散推理
该论文介绍了一种离线强化学习的方法,使用压缩的潜在技能建模支援轨迹序列,避免外推错误,并通过批量约束来学习 Q 函数。该方法通过学习的时间抽象潜在空间在离线强化学习任务中编码了更丰富的任务特定信息,改进了信用分配,并促进了更快的奖励传播。该 - Hindsight-DICE:深度强化学习的稳定信用分配
利用重要性抽样比率估计技术改进了策略梯度方法中的信用分配问题,解决了在顺序决策制定问题中缺乏评估反馈的挑战。
- 探索人工智能对知识工作创造力的影响:超越机械抄袭和随机鹦鹉
人工智能和生成模型对知识工作产生了深远影响,探讨了创造力、原创性、抄袭、归属权等问题。通过文学批评、艺术史和版权法例子,指出创造力和原创性无法被界定为对象的信息熵属性,而是过程、作者或观众的属性。认为创造力最终由创作者和受众共同界定,在人工 - Transformers 在强化学习任务中的优势:将记忆与信用分配解耦
通过对记忆长度和信用分配长度的定义,并设计简单可配置的任务来衡量这些不同的量,我们的实证结果揭示了 Transformers 可以增强 RL 算法的记忆能力,可以扩展到需要记住 1500 个步骤之前观察的任务,但 Transformers - IJCAI多智能体团队学习的更深层理解
研究团队结构在群体学习中的影响,结果显示,某些团队结构帮助代理程序学习特定角色,从而获得更有利的全局结果;然而,大型团队创建的信用分配挑战降低了协调性,导致大型团队表现不如小型团队。
- 多智能体环境中高效协作的因果关系发现
本研究探讨了因果关系在多智能体强化学习中的应用,证明了因果关系估计可以用于改善智能体的学习并用 Amortized Causal Discovery 自动检测和惩罚懒惰的智能体,从而提高了团队的整体表现和个体能力。
- 在线学习长程依赖关系
本研究通过利用多层网络中的独立递归模块,提出了一种可行的高性能在线学习算法,能够有效地解决递归神经网络中长期信用分配的问题,并通过在合成记忆问题和长距离竞技场基准测试中的表现明确了该算法的有效性,为大脑学习和神经计算提供了新的思路。