强化学习的模块化：通过算法独立性进行信用分配

ICMLJun, 2021

强化学习的模块化：通过算法独立性进行信用分配

Modularity in Reinforcement Learning via Algorithmic Independence in Credit Assignment

Michael Chang, Sidhant Kaushik, Sergey Levine, Thomas L. Griffiths

TL;DR本研究提出了一种模块化信用分配的形式化理论，通过对算法自身的因果分析，将社会决策制定框架作为马尔可夫决策过程的更精细正式框架，证明了一些单步时序差分行为价值方法满足这一约束条件，而所有政策梯度方法都不满足该约束条件，传输学习的实证研究表明这种行为价值方法在要求对先前最优决策序列进行稀疏更改的情况下，比政策梯度方法具有更高的样本效率。

Abstract

Many transfer problems require re-using previously optimal decisions for solving new tasks, which suggests the need for learning algorithms that can modify the mechanisms for choosing certain actions independently of those for choosing others. However, there is currently no formalism nor theory for how to achieve this kind of →

modular credit assignment algorithmic mutual information temporal difference policy-gradient methods transfer learning

发现论文，激发创造

选择性信用分配

通过对选择性赋权的 TD 方法进行统一描述和理解，介绍了如何将赋权应用于基于值的学习和规划算法中，以调节预测和控制问题中的后向信用分配。在这个空间中，我们还确定了一些现有的在线学习算法，它们可以作为特例进行选择性分配信用，并增加了一些可以反事实分配信用的算法，使得信用可以从轨迹和策略之外进行分配。

Feb, 2022

模型无关强化学习中的反事实信用分配

本研究应用反事实的思想来解决强化学习领域中 action 对于未来奖励的影响以及技能和运气的区分问题，并提出了一种使用未来条件价值函数作为基准的策略梯度算法，以及加入了不确定因素的验证和实验，证明了该算法有效性和低方差的特点。

Nov, 2020

深度强化学习中的时间信用分配调查

信用分配问题是强化学习中一个长期存在的挑战，通过对深度强化学习中的时间性信用分配进行研究，提出了一种统一的信用形式，并分析了现有方法在处理延迟效应、位置换位和行动影响不足方面的挑战，还介绍了评估信用分配方法的协议，并建议诊断不同信用分配方法困难来源的方法。该综述为新进入者和研究人员提供了领域概述，为学者在信用分配问题上开展新研究提供了连贯的视角，并提出了未来研究的潜在方向。

Dec, 2023

ProMP: 近端元策略搜索

本文研究 Meta-reinforcement learning 中信用分配的理论分析，提出了一种新的元学习算法，通过控制先适应和适应策略的统计距离，实现了高效和稳定的元学习。该方法导致出色的先适应策略行为，并在样本效率，墙钟时间和渐近性能方面始终优于以前的 Meta-RL 算法。

Oct, 2018

自主驾驶车辆的协作 RL 测试基于潜能的信用分配

本文介绍了协作强化学习的概念，用于为自主车辆规划和决策模块生成具有挑战性的测试用例，提出了一种基于潜在因素的奖励塑形方法，旨在解决交通场景中多个实体相互作用时的贡献分配问题，并在模拟环境中进行了实验验证。

May, 2023

基于异构知识的增强模块化强化学习

通过使用调解者选择异质性模块和平稳地融合不同类型的知识，提出了增强型模块化强化学习 (AMRL) 框架，并引入了选择机制的变体，即记忆增强型调解者，以利用时间信息，评估结果表明增强传统模块化 RL 的其他形式的异质知识可以提高性能

Jun, 2023

分层强化学习中的信用分配

研究探讨了如何从常规多步强化学习的角度看待分层信用分配，并将其改进为能够提高代理性能的层次算法。

Mar, 2022

软模块化的多任务强化学习

通过引入显式的模块化技术和路由网络，将多任务共享的参数进行重新配置，实现了适用于连续任务的软模块化方法，从而大幅提高了机器人操作任务的效率和性能。

Mar, 2020

信用分配：发展类人智能代理人的挑战和机遇

本研究使用基于经验决策的认知模型 IBLT 来测试不同的信用分配机制，并发现决策复杂性会影响人类表现，而不影响模型的表现。机器学习方法如 TD 方法和 Q 学习方法在人类能力匹配方面表现不佳，但在最终能够超越人类。IBL 模型在信用分配方面比其他模型表现更好，研究为未来 AI 系统的开发提供了洞察。

Jul, 2023

基于 Shapley 值的多智能体强化学习：理论、方法及其在能源网络中的应用

本论文通过合作博弈理论研究了多智能体强化学习中的信用分配问题，提出了一种基于 Markov Shapley 值的信用分配方案，并应用于能源网络的真实问题上。

Feb, 2024