ROMA-iQSS: 基于状态值学习与循环轮换多智能体调度的客观对齐方法

Apr, 2024

ROMA-iQSS: 基于状态值学习与循环轮换多智能体调度的客观对齐方法

ROMA-iQSS: An Objective Alignment Approach via State-Based Value Learning and ROund-Robin Multi-Agent Scheduling

Chi-Hui Lin, Joewie J. Koh, Alessandro Roncone, Lijun Chen

TL;DR多智能体合作、去中心化状态价值学习、可伸缩性、效率和最优目标的识别与对齐是本研究的关键内容。

Abstract

Effective multi-agent collaboration is imperative for solving complex, distributed problems. In this context, two key challenges must be addressed: first, autonomously identifying optimal objectives for collectiv

multi-agent collaboration decentralized state-based value learning scalability efficiency optimal objectives

发现论文，激发创造

逆因子化 Q-Learning 用于合作多智能体模仿学习

该论文提出了一种针对合作多智能体系统的新颖多智能体模仿学习算法，通过使用混合网络聚合分散的 Q 函数，实现了集中式学习，并在具有高度挑战性的竞争性和合作性多智能体游戏环境中进行了广泛实验，表明该算法相对于现有的多智能体模仿学习算法具有显著的有效性。

Oct, 2023

多智能体分配任务的状态增强式强化学习

通过受限的强化学习解决多智能体分配问题中的冲突要求，强调标准正则化技术的不足，提出了一种状态增强方法，通过代理利用对偶变量的振荡来在任务之间交替，同时通过通信网络协调多智能体的动作，消除了访问其他智能体状态的需要，从而提出了一种具有理论可行性保证的分布式多智能体分配协议，并通过监视的数值实验予以证实。

Jun, 2024

基于状态对齐的模仿学习

提出一种基于状态对齐的模仿学习方法，旨在训练模仿者尽可能地模仿专家演示中的状态序列，该方法将本地和全局的状态对齐结合到一个强化学习框架中，并通过一个规则化的策略更新目标来实现。该方法在标准模仿学习设置和专家和模仿者具有不同动力学模型的模仿学习设置中显示了其优越性。

Nov, 2019

通过多目标偏好聚合的动态价值调整

通过动态价值对齐的多目标方法，扩展了深度 Q-Learning 以适应多个目标，在一个由切换代理程序控制的简化交叉口上，动态适应驾驶员对系统的偏好，实现了在速度、停车和等待等三个指标上更好的综合性能，同时整合了具有竞争或冲突行为的目标。

Oct, 2023

QMIX: 深度多智能体强化学习的单调价值函数分解

QMIX 是一种基于价值的方法，可以在中央化端到端方式下训练去中心化策略，其在 StarCraft II 微管理任务中表现良好并优于现有的基于价值的多智能体强化学习方法。

Mar, 2018

QSOM 和 QDSOM 算法的多智能体伦理一致自适应强化学习

本文提出了 QSOM 和 QDSOM 两种算法，旨在解决机器道德领域中的挑战，即如何使 AI 系统与我们的伦理考虑保持一致，并能够适应时间和社会规范的变化。通过将 Q 表与（动态）自组织映射相结合，这些算法是能够处理连续和多维状态和动作空间的。在智能电网案例中，它们证明了其适应能力和相比基准强化学习算法更高的性能。

Jul, 2023

深度多智能体强化学习的单调价值函数分解

QMIX 是一种新的价值方法，可以在集中端到端的方式下训练分散的策略，通过使用混合网络来估计联合行动价值，并通过混合网络中的非负权重和每个代理价值的单调组合来保证中心化和分散策略之间的一致性，并在 StarCraft 多智能体挑战赛（SMAC）中获得了显著的优越性。

Mar, 2020

基于搜索的多智能体学习中的策略价值调整与鲁棒性

该研究提出了 VISA-VIS 方法，以提高 AlphaZero 中的策略价值一致性和价值鲁棒性，其可以将策略与价值预测矛盾降低 76％，将价值泛化误差降低 50％，将平均价值误差降低 55％。

Jan, 2023

LOQA：带有对手 Q 学习意识的学习

本文介绍了一种名为 LOQA 的分布式强化学习算法，用于在部分竞争环境中优化代理个体效用并促进对手之间的合作，在统一代理应用中取得了良好的性能。

May, 2024

在考虑可接受性放松的情况下学习价值一致的策略的算法

价值意识工程的新兴领域声称软件代理和系统应该具有价值意识，即它们必须按照人类价值观做出决策。本文提出了两种算法，基于局部对齐的 epsilon-ADQL 算法和其在序列决策中的扩展 epsilon-CADQL，通过应用约束强化学习算法有效解决了价值对齐决策的复杂性，我们在干旱场景下的水分配问题中验证了它们的效率。

Jun, 2024