信用分配：发展类人智能代理人的挑战和机遇

Jul, 2023

信用分配：发展类人智能代理人的挑战和机遇

Credit Assignment: Challenges and Opportunities in Developing Human-like AI Agents

Thuy Ngoc Nguyen, Chase McDonald, Cleotilde Gonzalez

TL;DR本研究使用基于经验决策的认知模型 IBLT 来测试不同的信用分配机制，并发现决策复杂性会影响人类表现，而不影响模型的表现。机器学习方法如 TD 方法和 Q 学习方法在人类能力匹配方面表现不佳，但在最终能够超越人类。IBL 模型在信用分配方面比其他模型表现更好，研究为未来 AI 系统的开发提供了洞察。

Abstract

temporal credit assignment is crucial for learning and skill development in natural and artificial intelligence. While computational methods like the TD approach in reinforcement learning have been proposed, it's

temporal credit assignment computational methods cognitive models instance-based learning theory decision complexity

发现论文，激发创造

深度强化学习中的时间信用分配调查

信用分配问题是强化学习中一个长期存在的挑战，通过对深度强化学习中的时间性信用分配进行研究，提出了一种统一的信用形式，并分析了现有方法在处理延迟效应、位置换位和行动影响不足方面的挑战，还介绍了评估信用分配方法的协议，并建议诊断不同信用分配方法困难来源的方法。该综述为新进入者和研究人员提供了领域概述，为学者在信用分配问题上开展新研究提供了连贯的视角，并提出了未来研究的潜在方向。

Dec, 2023

通过传输价值优化长时间尺度下的代理行为

本文提出一种新的强化学习范式，利用记忆回忆特定事件来赋予过去行动以荣誉，解决了过去人工智能方法无法解决的问题，将为神经科学、心理学和行为经济学等领域提供计算机模型的机制解释。

Oct, 2018

选择性信用分配

通过对选择性赋权的 TD 方法进行统一描述和理解，介绍了如何将赋权应用于基于值的学习和规划算法中，以调节预测和控制问题中的后向信用分配。在这个空间中，我们还确定了一些现有的在线学习算法，它们可以作为特例进行选择性分配信用，并增加了一些可以反事实分配信用的算法，使得信用可以从轨迹和策略之外进行分配。

Feb, 2022

神经科学启发的机器学习综述

这篇论文调研了模拟生物可行的信用分配规则在人工神经网络中的多个重要算法，并讨论了它们在不同科学领域的解决方案以及在 CPU、GPU 和神经形态硬件上的优势，最后讨论了未来需要解决的挑战，以使这些算法在实际应用中更加有用。

Feb, 2024

脑启发的机器智能：神经生物学可行的信用分配综述

通过对受神经生物学启发或影响的人工神经网络中进行信用分配的算法的调查，我们提出了一个分类法，根据学习算法回答复杂自适应神经系统突触可塑性机制的核心问题的方式，整理了不断增长的大脑启发学习过程集合为六个通用家族，并在反向传播和其已知批评的背景下考虑了这些家族，结果旨在鼓励未来在神经仿真系统及其组成学习过程的发展，从而在机器学习、计算神经科学和认知科学之间建立良好的桥梁。

Dec, 2023

长期信用分配的合成回报

本研究提出一种基于状态关联学习的方法来优化强化学习中时间差分方法的不足，并用其在 Atari 游戏的任务中获得了比现有技术快 25 倍的结果。

Feb, 2021

自主驾驶车辆的协作 RL 测试基于潜能的信用分配

本文介绍了协作强化学习的概念，用于为自主车辆规划和决策模块生成具有挑战性的测试用例，提出了一种基于潜在因素的奖励塑形方法，旨在解决交通场景中多个实体相互作用时的贡献分配问题，并在模拟环境中进行了实验验证。

May, 2023

序列压缩加速增强学习中的信用分配

时间差分学习中的时间分配问题是具有挑战性的，本文提出了一种名为 Chunked-TD 的算法，它使用来自模型的预测概率来计算 lambda 回报目标，相对于其他基于模型的解决方案，Chunked-TD 更不容易受到模型的不准确性影响，该算法可以在线实施，解决了某些问题比传统的 TD (lambda) 算法更快。

May, 2024

利用认知和机器模型在协作多智能体系统中学习

基于平衡学习理论和深度强化学习技术，我们提出了三种多智能体实例基学习（MAIBL）模型，用于协调在随机环境下的多智能体系统。通过在动态环境中展示瞬间学习能力和协调技巧，我们证明 MAIBL 模型相对于现有的多智能体深度强化学习模型更快地学习和实现更好的协调。我们还讨论了将认知洞察力整合到多智能体深度强化学习模型中的好处。

Aug, 2023

Hindsight-DICE：深度强化学习的稳定信用分配

利用重要性抽样比率估计技术改进了策略梯度方法中的信用分配问题，解决了在顺序决策制定问题中缺乏评估反馈的挑战。

Jul, 2023