多智能体信任域优化的博弈论方法
该研究将信任区域策略优化(TRPO)扩展到多智能体强化学习(MARL)问题,提出了一种基于分布式共识优化问题的去中心化 MARL 算法 MATRPO,该算法能够基于本地观察和私人奖励优化分布式策略,实现完全的去中心化和保护隐私。实验表明,MATRPO 在复杂的 MARL 任务中表现出了强韧的性能。
Oct, 2020
本文介绍了针对到多智能体强化学习 (MARL) 的信任区域方法,并展示了 Heterogeneous-Agent Trust Region Policy Optimisation 和 Heterogeneous-Agent Proximal Policy Optimisation 算法的成功应用。
Sep, 2021
该研究提出了陷阱区域的概念来解决多智能体学习中的算法收敛性问题,在已知学习动态的系统中使用二分法算法验证,而在不知道学习动态的情况下则使用启发式抽样算法来划分安全集合,从而确保在学习过程中不会形成危险的联合策略组合。
Feb, 2023
该研究提出了一种基于低秩矩阵的模型作为 Trust Region Policy Optimization(TRPO)算法参数的有效替代方法,将随机策略的参数整合成一个矩阵并应用矩阵补全技术,从而降低计算和样本复杂度,并保持相似的综合奖励。
May, 2024
在强化学习中,针对数据量有限的情况,提出了一种基于不确定性管理技术的深度策略优化方法,可以生成稳健的策略更新,适应学习过程中的不确定性水平。
Dec, 2020
在离线强化学习中,基于行为策略的支持约束的支持下的支持信任区域优化(STR)保证了严格的策略改进,并在包括近似误差和采样误差的情况下保证步骤的安全策略改进,其理论和实证结果验证了其在 MuJoCo 运动领域和具有更具挑战性的 AntMaze 领域的卓越性能。
Nov, 2023
本文探讨了长期平均目标下的强化学习问题,提出了一种统一的信任区域理论和一种名为 APO 的实用算法,该算法可以改进价值估计,并且在大部分任务中表现优于折扣 PPO,提出的框架可能会补充折扣目标的强化学习框架。
Jun, 2021
本文提出了一种名为 TRPO 的实用算法,通过优化政策来达到保证单调改善的目的,并通过一系列实验展示了其在学习模拟机器人的 Swimming、Hopping 以及 Walking,并使用屏幕图像玩 Atari 游戏等众多方面的优越表现。
Feb, 2015
本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法,用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题,并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.
Nov, 2017
通过使用深度神经网络同时学习模型和策略,我们分析了基于模型的增强学习方法的行为,并展示出学习到的策略倾向于利用模型学习不足的区域,导致训练不稳定。为了解决这个问题,我们提出使用模型集合来维护模型的不确定性并规范学习过程,并进一步展示,与 “Backpropagation through time” 相比,使用 “likelihood ratio” 导数可以获得更加稳定的学习。通过我们的方法 ME-TRPO,在具有挑战性的连续控制基准任务中,显著减少了比基于模型的深度 RL 方法所需的样本数量。
Feb, 2018