多智能体软 Q 学习

AAAIApr, 2018

Multiagent Soft Q-Learning

Ermo Wei, Drew Wicke, David Freelan, Sean Luke

TL;DR研究了在连续多智能体博弈中应用策略梯度方法时出现的相对过度泛化问题，并提出了多智能体软 Q 学习方法来解决这个问题。与现有方法 MADDPG 相比，该方法可实现更好的多智能体协作任务协调，达到联合行为空间中更好的局部最优。

Abstract

policy gradient methods are often applied to reinforcement learning in continuous multiagent games. These methods perform local search in

发现论文，激发创造

本文介绍了在深度强化学习模型中添加安全层以确保多智能体控制问题的安全性的方法，该方法采用线性化单步转换动态的思想，并使用软约束解决了实施步骤中的不可行性问题，在保证软约束的约束满足性的基础上实现了学习过程中的安全控制。

Aug, 2021

本文研究深度强化学习在多智能体领域的应用，提出一种基于演员 - 评论家方法的适应性策略，可成功学习需要多智能体协作的复杂策略，并通过使用每个智能体的策略集进行训练，得到了更强大、更健壮的策略。在合作和竞争场景中，我们的方法相比现有方法能够发现各种物理和信息协调策略。

Jun, 2017

本论文将 Deep Q-Learning 算法应用于连续动作域，并提出了一种基于确定性策略梯度的演员 - 评论家模型无模型算法，可在连续动作空间中进行操作，成功解决了 20 多个模拟物理任务，并能与完全访问动态并了解其导数的规划算法相竞争，并证明该算法对许多任务能够进行端到端学习。

Sep, 2015

使用通信媒介增强的多智能体深度确定性策略梯度算法在六种高度非稳态环境中表现良好，相比基线模型具有显著性能提升。

Dec, 2018

探索使用强化学习解决多智能体问题，将多智能体强化学习问题视为分布式优化问题处理，假设多智能体群体中每个智能体的策略在参数空间中相近且可以用单一策略代替，结果表明该算法在协作和竞争任务上比现有方法更加有效。

May, 2018

提出了一种基于混合策略、利用两个独立网络来校正过度估计偏差的新方法，在少量 MuJoCo 环境上展示了有前景的接近 SOTA 的结果。

Sep, 2023

本文探讨了在离散动作空间的场景下，使用多种代替 Gumbel-Softmax 估计器的方法来扩展 MADDPG 算法，并对各种性能指标进行了测量和分析，结果表明，在几项任务中，其中一种提出的估计方法比原始的 Gumbel-Softmax 在返回率上表现显著更好，同时收敛更快。

Feb, 2023

研究如何通过强化学习来解决机器人之间进行优化的问题，证明了基于策略梯度方法的算法在均值场问题中能够收敛。

Oct, 2019

研究表明，$Q$-learning 方法在最初的样本效率和有效性方面能够有效地实现，但其估计的 $Q$-value 非常不准确，本文给出了一个部分解释，即 $Q$-learning 方法在秘密地实现 policy gradient 更新。

Apr, 2017

本研究提出了两个基于集中式训练、分散式执行范式的深度多智能体软策略优化算法以解决混合行动空间问题，并在基本物理模拟和易于实现的多智能体环境下进行了实验验证并取得了良好的表现。

Aug, 2022