离线多智能体强化学习中的隐式全局局部价值规范化

Jul, 2023

离线多智能体强化学习中的隐式全局局部价值规范化

Offline Multi-Agent Reinforcement Learning with Implicit Global-to-Local Value Regularization

Xiangsen Wang, Haoran Xu, Yinan Zheng, Xianyuan Zhan

TL;DROMIGA 是一种新的离线多智能体强化学习算法，具有隐式的全局到局部值正则化，能够在实例学习中同时实现多智能体值分解和离线正则化的策略学习，通过在离线多智能体任务中的全面实验表明，OMIGA 在几乎所有任务中表现优于最先进的离线多智能体强化学习方法。

Abstract

offline reinforcement learning (RL) has received considerable attention in recent years due to its attractive capability of learning policies from offline datasets without environmental interactions. Despite some success in the single-agent setting, offline →

offline reinforcement learning multi-agent rl offline policy optimization global-level value regularization offline marl methods

发现论文，激发创造

离网 MARL: 一个数据集生成框架，具备合作离线多智能体强化学习基线

该研究为填补离线多智能体强化学习（MARL）领域中缺乏标准基准和评估方法的空白，提出了一个名为 OG-MARL 的离线 MARL 数据集和算法框架，包括一套标准评估方案。OG-MARL 的数据集本质上是从在线 MARL 基准中生成的，具有复杂的动态、非静态性、局部可观察性、次优性和稀疏奖励等特征。

Feb, 2023

离线多智能体强化学习与耦合值因子分解

OMAC 是一种新的离线多智能体强化学习算法，采用耦合值分解方案将全局价值函数分解为本地和共享组件，并保持状态值和 Q 值函数之间的信用分配一致性，并在分解的本地状态值函数上执行样本内学习，同时避免由于评估分布外动作而引起的分布移位，基于综合评估离线多智能体 StarCraft II 微观管理任务，我们展示了 OMAC 比最先进的离线多智能体 RL 方法具有更优越的性能。

Jun, 2023

多智能体强化学习的统一博弈论方法

本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法，用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题，并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.

Nov, 2017

政策规范化的离线多目标强化学习

本文致力于利用仅离线轨迹数据训练一个多目标强化学习策略。我们将单目标离线强化学习问题中广泛采用的离线策略正则化方法扩展到多目标设置，以达到上述目标。然而，在离线多目标强化学习设置中，存在新的挑战，即偏好不一致演示问题。我们提出了两个解决方案：1）通过近似行为偏好来过滤偏好不一致的演示，和 2）采用具有高策略表达能力的正则化技术。此外，我们将偏好条件化的标量化更新方法整合到策略正则化的离线强化学习中，以便使用单个策略网络同时学习一组策略，从而减少训练大量不同偏好的个体策略所带来的计算成本。最后，我们引入了正则化权重适应机制，在部署过程中动态确定任意目标偏好的适当正则化权重。各种多目标数据集上的实证结果展示了我们的方法在解决离线多目标强化学习问题方面的能力。

Jan, 2024

离线多智能体强化学习协调问题的基于模型的解决方案

该研究针对现有离线多智能体强化学习算法在协作中存在的问题进行研究，并提出了一种基于模型的离线多智能体近端策略优化算法（MOMA-PPO），利用合成的交互数据帮助智能体在策略调整中更好地协调，成功解决了现有算法在多智能体任务中出现的协作问题。

May, 2023

基于模型的离线元强化学习与正则化

该研究论文介绍了一种基于模型的元强化学习方法 ——MerPO，使用正则化策略优化来实现任务结构推断和元策略安全探索。该方法通过探究 “探索” 元策略的分布情况和 “利用” 离线数据集的紧密度之间的平衡，对元强化学习算法进行了改进，并在实验中取得了优异的表现。

Feb, 2022

数字孪生的保守和风险意识离线多智能体强化学习

提出了一种适用于基于数字孪生的无线网络的离线多智能体保守分位回归 (MA-CQR) 方案，通过集成分布式强化学习和保守 Q 学习来解决环境的内在的随机性不确定性和数据有限性导致的认识不确定性。在无人机网络中应用该方案，展示了其对轨迹规划问题的优势。

Feb, 2024

自适应行为正则化的离线强化学习

本文提出了自适应行为正则化（ABR）的方法改善已有机器学习数据集中存在的行为采样偏差，从而提高了离线强化学习的效率和稳定性，并在 D4RL 数据集上实现了最新算法中更好或相当的性能。

Nov, 2022

离线强化学习的极简主义方法

通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据，在保持简单性的同时，最大限度地提高了运行效率，从而实现了与现有离线 RL 算法相当的性能。

Jun, 2021

MOReL：基于模型的离线强化学习

本研究提出了基于模型的离线强化学习算法 MOReL，具有模块化设计，可以用于模型生成、不确定性估计、规划等领域，实验结果表明，MOReL 能够达到或超过当前广泛研究的离线强化学习基准的最新结果。

May, 2020