多智能体信任域优化的博弈论方法

Jun, 2021

多智能体信任域优化的博弈论方法

A Game-Theoretic Approach to Multi-Agent Trust Region Optimization

Ying Wen, Hui Chen, Yaodong Yang, Zheng Tian, Minne Li...

TL;DR通过在策略空间中进行博弈论分析，MATRL 提出了一种用于多智能体学习的多智能体信赖域学习方法，该方法可在解决纳什均衡的元游戏级别上找到稳定的改进方向，并在离散和连续的多人游戏中明显优于基线。

Abstract

trust region methods are widely applied in single-agent reinforcement learning problems due to their monotonic performance-improvement guarantee at every iteration. Nonetheless, when applied in multi-agent settings, the guarantee of →

trust region methods multi-agent learning game theory nash equilibrium reinforcement learning

发现论文，激发创造

多智能体信任区域策略优化

该研究将信任区域策略优化（TRPO）扩展到多智能体强化学习（MARL）问题，提出了一种基于分布式共识优化问题的去中心化 MARL 算法 MATRPO，该算法能够基于本地观察和私人奖励优化分布式策略，实现完全的去中心化和保护隐私。实验表明，MATRPO 在复杂的 MARL 任务中表现出了强韧的性能。

Oct, 2020

多智能体强化学习中的信任区域策略优化

本文介绍了针对到多智能体强化学习 (MARL) 的信任区域方法，并展示了 Heterogeneous-Agent Trust Region Policy Optimisation 和 Heterogeneous-Agent Proximal Policy Optimisation 算法的成功应用。

Sep, 2021

通过陷阱区域实现多智能体学习的安全性保障

该研究提出了陷阱区域的概念来解决多智能体学习中的算法收敛性问题，在已知学习动态的系统中使用二分法算法验证，而在不知道学习动态的情况下则使用启发式抽样算法来划分安全集合，从而确保在学习过程中不会形成危险的联合策略组合。

Feb, 2023

矩阵低秩信任域策略优化

该研究提出了一种基于低秩矩阵的模型作为 Trust Region Policy Optimization（TRPO）算法参数的有效替代方法，将随机策略的参数整合成一个矩阵并应用矩阵补全技术，从而降低计算和样本复杂度，并保持相似的综合奖励。

May, 2024

不确定性感知策略优化：一种稳健、自适应的信任区域方法

在强化学习中，针对数据量有限的情况，提出了一种基于不确定性管理技术的深度策略优化方法，可以生成稳健的策略更新，适应学习过程中的不确定性水平。

Dec, 2020

离线强化学习的支持信任域优化

在离线强化学习中，基于行为策略的支持约束的支持下的支持信任区域优化（STR）保证了严格的策略改进，并在包括近似误差和采样误差的情况下保证步骤的安全策略改进，其理论和实证结果验证了其在 MuJoCo 运动领域和具有更具挑战性的 AntMaze 领域的卓越性能。

Nov, 2023

使用信任域方法的平均奖励强化学习

本文探讨了长期平均目标下的强化学习问题，提出了一种统一的信任区域理论和一种名为 APO 的实用算法，该算法可以改进价值估计，并且在大部分任务中表现优于折扣 PPO，提出的框架可能会补充折扣目标的强化学习框架。

Jun, 2021

信任域策略优化

本文提出了一种名为 TRPO 的实用算法，通过优化政策来达到保证单调改善的目的，并通过一系列实验展示了其在学习模拟机器人的 Swimming、Hopping 以及 Walking，并使用屏幕图像玩 Atari 游戏等众多方面的优越表现。

Feb, 2015

多智能体强化学习的统一博弈论方法

本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法，用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题，并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.

Nov, 2017

模型集成信任区域策略优化

通过使用深度神经网络同时学习模型和策略，我们分析了基于模型的增强学习方法的行为，并展示出学习到的策略倾向于利用模型学习不足的区域，导致训练不稳定。为了解决这个问题，我们提出使用模型集合来维护模型的不确定性并规范学习过程，并进一步展示，与 “Backpropagation through time” 相比，使用 “likelihood ratio” 导数可以获得更加稳定的学习。通过我们的方法 ME-TRPO，在具有挑战性的连续控制基准任务中，显著减少了比基于模型的深度 RL 方法所需的样本数量。

Feb, 2018