LOQA：带有对手 Q 学习意识的学习

ICLRMay, 2024

LOQA: Learning with Opponent Q-Learning Awareness

Milad Aghajohari, Juan Agustin Duque, Tim Cooijmans, Aaron Courville

TL;DR本文介绍了一种名为 LOQA 的分布式强化学习算法，用于在部分竞争环境中优化代理个体效用并促进对手之间的合作，在统一代理应用中取得了良好的性能。

Abstract

In various real-world scenarios, interactions among agents often resemble the dynamics of general-sum games, where each agent strives to optimize its own utility. Despite the ubiquitous relevance of such settings, decentralized machine learning algorithms have struggled to find equilibria that maximize individual utility while preserving social welfare. In t

decentralized machine learning cooperation reinforcement learning opponent q-learning awareness multi-agent applications

发现论文，激发创造

对抗学习感知的学习

LOLA 是一种用于多智能体学习的方法，在 agent 间显式地考虑其他 agent 的学习，以达到识别和利用合作的目的。

Sep, 2017

具有对手学习意识的近端学习

本文提出 Learning With Opponent-Learning Awareness (LOLA) 的一个改进算法 —— 造假 LOLA（proximal LOLA，POLA），并证明其可在部分竞争性环境下更可靠地实现基于互惠的合作。

Oct, 2022

透明对手之间的双人游戏学习

本文以两个强化学习代理经常在矩阵游戏中相互博弈作为情境，考虑透明性决策制定对于对手的预测及对手感知梯度步长能力，探究透明性决策制定与对手感知学习相结合能否在囚徒困境和鸡斗中取得可接受的收益等问题，发现透明性决策制定和对手感知学习的组合能对囚徒困境中的双方达成互惠合作。而在鸡斗场景中，由于平衡点的选择问题，需要进一步开发适合的对手感知学习算法。

Dec, 2020

优势对准算法

人工智能代理、冲突、对手塑造、优势对齐和社会困境是该研究论文的主要关键词和研究领域，通过引入优势对齐方法，该论文证明了对手塑造方法的效果，并在不同情况下取得了最先进的结果。

Jun, 2024

COLA: 具有对手感知的一致学习

通过在 LOLA 算法中引入一种方法称为 Consistent LOLA，其中学习更新功能在彼此影响时保持一致，作者在广义和游戏模型中进行了一系列实验，发现这种方法比 HOLA 和 LOLA 更容易收敛，并能够找到更加符合社会期望的解决方案。

Mar, 2022

通过奖励归因分解进行多智能体协作

本文提出了一种名为 Collaborative Q-learning (CollaQ) 的多智能体协作强化学习算法，它利用 Multi-Agent Reward Attribution (MARA) loss 进行训练并在 StarCraft 多智能体挑战中表现出色，尤其支持 ad hoc 团队玩法。该算法能将每个智能体的 Q 函数分解为自表达项和交互项，并在无需重新训练 / 微调的情况下，显著提高 SoTA 超过 30%。

Oct, 2020

可微分游戏中的稳定对手塑造

该论文提出了稳定对手塑造方法，该方法通过插值实现了区分对手学习（LOLA）和稳定对手塑造的最佳属性，并在可微分游戏中表现出卓越的性能。

Nov, 2018

通过对抗性行为来抑制 Q 学习中的过高估计

通过引入虚拟对手行为的虚拟对手 Q 学习（DAQ）算法，该论文旨在解决标准 Q 学习中过高估计偏差的问题，将学习过程建模为一个双人零和博弈，并统一了几种控制过高估计偏差的 Q 学习变体。通过将 DAQ 应用于现成的强化学习算法，可以简单有效地抑制过高估计偏差，并通过运用对抗性 Q 学习的整合视角分析了 DAQ 的有限时间收敛性，通过多个基准环境的实证研究展示了 DAQ 的性能。

Oct, 2023

深度强化学习中的对手建模

本文介绍了一种基于神经网络和任务多项式结构的对手建模方法，该方法能够应用于多智能体环境下的策略自适应，通过对足球和智力竞赛等游戏的模拟实验可知该方法胜于深度 Q 网络及其衍生方法。

Sep, 2016

网络中的增强学习分散式在线凸优化

本文讨论了基于网络化多智能体系统的分散在线凸优化，并提出了一种新的算法 —— 学习增强的分散式在线优化（LADO），使个体代理人仅基于本地在线信息选择动作。与现有的集中式学习增强在线算法形成鲜明对比，LADO 实现了分散式设置下的强大的鲁棒性保证。我们还证明了 LADO 的平均成本限制，揭示了平均性能和最坏情况下鲁棒性之间的权衡，并表明通过明确考虑鲁棒性要求来训练 ML 策略的优势。

Jun, 2023