QSOM 和 QDSOM 算法的多智能体伦理一致自适应强化学习

Jul, 2023

QSOM 和 QDSOM 算法的多智能体伦理一致自适应强化学习

Adaptive reinforcement learning of multi-agent ethically-aligned behaviours: the QSOM and QDSOM algorithms

Rémy Chaput, Olivier Boissier, Mathieu Guillermin

TL;DR本文提出了 QSOM 和 QDSOM 两种算法，旨在解决机器道德领域中的挑战，即如何使 AI 系统与我们的伦理考虑保持一致，并能够适应时间和社会规范的变化。通过将 Q 表与（动态）自组织映射相结合，这些算法是能够处理连续和多维状态和动作空间的。在智能电网案例中，它们证明了其适应能力和相比基准强化学习算法更高的性能。

Abstract

The numerous deployed artificial intelligence systems need to be aligned with our ethical considerations. However, such ethical considerations might change as time passes: our society is not fixed, and our social mores evolve. This makes it difficult for these AI systems; in the

发现论文，激发创造

QMIX: 深度多智能体强化学习的单调价值函数分解

QMIX是一种基于价值的方法，可以在中央化端到端方式下训练去中心化策略，其在StarCraft II微管理任务中表现良好并优于现有的基于价值的多智能体强化学习方法。

Mar, 2018

QVMix和QVMix-Max：将深度质量-值算法扩展到合作多智能体强化学习

本文介绍了四种新算法：IQV，IQV-Max，QVMix和QVMix-Max，用于解决协作环境下发生的多智能体强化学习（MARL）问题。作者比较了这些算法和现有的MARL技术，并表明QVMix在测试环境中表现最佳，其优于其他算法的原因在于其$Q$函数的过高估计偏见相对较低。

Dec, 2020

MORAL：通过多目标强化主动学习将人工智能与人类规范对齐

我们提出了多目标强化主动学习(Multi-Objective Reinforced Active Learning, MORAL)方法，通过维护标量化权重的分布，交互式地调整深度强化学习代理向各种偏好的方向发展，从而将社会规范的不同展示组合成帕累托最优策略，并消除了计算多个策略的需要。我们在两种场景中对MORAL的有效性进行了实证验证，并将其视为学习奖励的多目标强化学习(Multi-objective RL)的一步，弥合了当前奖励学习和机器伦理文献之间的差距。

Dec, 2021

使用多智能体强化学习对社会困境中的道德选择建模

该文探讨了将道德选择嵌入智能系统的重要性，提出了使用强化学习设计奖励结构以探究道德问题，并在三种社交困境游戏中分析了不同类型的道德如何影响智能体的行为，探讨了这些发现对于智能和混合人工智能社会的发展的影响。

Jan, 2023

集中编排区块链协作:基于多智能体强化學習的住宅能量灵活协调

深层多智能体强化学习可实现住宅能量灵活性的可扩展和隐私保护的协调，结果表明，通过使用中心化但分化的评论家，可以在执行前排练协调。

May, 2023

多智能体强化学习：综述

该论文调查了多智能体系统中学习最优控制的复杂性，旨在深入理解多智能体应用的机遇和挑战，为研究人员和从业者提供有价值的观点，以促进该领域的发展。

Dec, 2023

混合 Q- 函数：用于连续动作领域的合作 MARL 中推进基于价值的方法

本文提出了一种新的多智能体价值算法，混合Q-函数（MQF），通过同时评估多种动作，改善了多智能体连续领域中基于价值的方法，促进了智能体之间的合作，并在六个合作多智能体场景中实证发现MQF通过快速动作评估和增加样本效率优于四个变种的深度确定性策略梯度算法。

Feb, 2024

游戏中的突变偏好学习

我们提出了基于进化博弈理论考虑的两种多智能体强化学习算法的变体。一个变体的有意简化使我们能够证明它与一类常微分方程系统的复制子-变异体动力学的关系，从而通过它的常微分方程对应项在各种环境中展示了该算法的收敛条件。相较于更复杂的算法，另一个更复杂的变体允许与Q学习算法进行比较。我们在一系列环境中通过实验将这两个变体与WoLF-PHC和频率调整的Q学习进行比较，展示了我们的变体在维度增加的情况下保持收敛性的实例与更复杂算法的对比。解析结果的可用性相对于纯经验案例研究提供了一定的可转移性，展示了在处理收敛性和可靠的推广问题时，动力系统视角对多智能体强化学习的普适性。

May, 2024

强化学习与机器伦理：系统综述

机器伦理是研究如何通过自主系统实现道德行为的领域，本文以系统综述的方式研究了强化学习用于机器伦理和机器伦理中的强化学习，并突出了在伦理规范、强化学习的组成部分和框架以及用于实现道德行为的环境方面的趋势。

Jul, 2024

适应新任务的强化学习智能体：基于Q-值的洞察

当代强化学习研究已广泛采用策略梯度方法作为解决学习问题的万能方法，然而只要我们能高效地利用它们，基于价值的方法在许多领域仍然有用。本文探讨了DQNs在强化学习中的混沌性质，同时理解了当训练时它们所保留的信息如何被改造用于适应不同任务的模型。我们从设计一个简单的实验开始，观察环境中每个状态和动作的Q值。然后我们通过不同的训练方式进行训练，探索这些训练算法如何影响准确学习（或未学习）Q值的方式。我们测试了每个训练模型在重新训练以完成稍微改变的任务时的适应性。然后我们扩展实验设置，测试一个无保护路口上的自动驾驶问题。我们观察到，当基础模型的Q值估计接近真实Q值时，模型能更快地适应新任务。结果提供了一些关于哪些算法对于高效适应任务有用的见解和指导。

Jul, 2024