独立学习个性化竞争行为的对比强化学习优化

Oct, 2023

独立学习个性化竞争行为的对比强化学习优化

All by Myself: Learning Individualized Competitive Behaviour with a Contrastive Reinforcement Learning optimization

Pablo Barros, Alessandra Sciutti

TL;DR在这篇论文中，我们提出了一个由三个神经层组成的新颖模型，用于学习竞争性游戏的表示、对特定对手策略的映射以及如何打乱对手。通过在线训练和对比优化的组合损失，我们的模型在 Pokemon 对战和四人竞技帽子师傅卡牌游戏中取得了较好的性能，尤其是在多次对战同一对手时。我们还对模型的影响进行了讨论，尤其是在对这两种情况下的具体策略学习方面的表现。

Abstract

In a competitive game scenario, a set of agents have to learn decisions that maximize their goals and minimize their adversaries' goals at the same time. Besides dealing with the increased dynamics of the scenari

competitive game agents personalized strategies neural layers online training

发现论文，激发创造

模仿以获胜：多智能竞争游戏中的模仿学习策略

我们提出了一种新的多智能体模仿学习模型，用于预测对手的下一步动作，并将其与策略训练结合为一个训练过程的多智能体强化学习算法，在三个具有挑战性的游戏环境中进行了广泛实验，结果表明我们的方法在性能上优于现有的多智能体强化学习算法。

Aug, 2023

深度强化学习中的对手建模

本文介绍了一种基于神经网络和任务多项式结构的对手建模方法，该方法能够应用于多智能体环境下的策略自适应，通过对足球和智力竞赛等游戏的模拟实验可知该方法胜于深度 Q 网络及其衍生方法。

Sep, 2016

在竞争游戏中引入对抗机制的强化学习

本文提出了一种基于竞争行为社会影响的强化学习机制，通过在互动游戏中设计与人类玩家互动的场景，研究了该机制如何影响了机器人代理的学习及人类玩家在游戏中的表现，结果表明在与竞争对手互动时，人类玩家会察觉到特定的社会特征与感知机制并对人类玩家的表现产生直接的影响，并探讨了组成人工竞争得分的不同社会和客观特征如何促进了研究成果。

Aug, 2022

基于对比学习的深度强化学习中的代理建模

多代理系统中，对智能机器代理进行适应性策略设计时，代理建模是至关重要的，通过代理建模可以理解其他代理的行为并提取有意义的策略表示，为增强自我代理的适应性策略提供帮助。这篇研究以对比学习为基础的代理建模方法（CLAM）只依赖于自我代理在训练和执行过程中的局部观察，可以实时生成一致且高质量的策略表示，且在合作和竞争多代理环境中取得了最先进的结果，突显了对比学习为基础的代理建模在增强式学习中的潜力。

Dec, 2023

分布式多智能体协作的对手建模层次强化学习

本文介绍了一种基于深度强化学习的多智能体协作方法，通过分布式学习实现了高效的策略搜索，并在合作变道场景中进行了仿真和实际案例验证。

Jun, 2022

对比学习作为目标条件强化学习

本文提出了基于对比学习的强化学习算法，通过学习动作标记的轨迹对比学习来直接获得好的表示，并成功地将其应用于目标条件 RL 任务。在一系列任务中，对比 RL 方法表现更好，且不需要使用数据增强或辅助目标。

Jun, 2022

多智能体竞争引发的紧急复杂性

本文介绍了几种在三维环境中进行竞争多智能体自我对抗训练的方法，这些方法可以训练出丰富多彩、技能复杂的智能体。此外，我们指出，自我对抗训练可以产生超出环境本身复杂性的行为，并且自带课程设置，有助于智能体学习不同难度水平下的技能。

Oct, 2017

深度强化学习下的多智能体合作与竞争

本文探讨了如何在多智能体环境下，运用扩展后的 Deep Q-Learning Network，使两个由独立的 Deep Q-Networks 控制的 agents，相互作用以玩经典的电子游戏乒乓球，以及通过改变 Pong 经典奖励方案，演示出竞争和合作性行为的出现。研究表明 Deep Q-Networks 可以成为在高度复杂环境中研究分散式学习的多智能体系统的实用工具。

Nov, 2015

人工智能竞争团队中异质策略的自然出现

研究了多智能体策略在混合合作 - 竞争环境下的学习问题，提出使用图神经网络和强化学习联合训练的方法，并可以将其应用在异构多智能体行为的研究中。最终，提出了集合训练的算法，将对手 Agent 的策略融合到训练中，以提高团队的整体表现。

Jul, 2020

竞技游戏离线虚构自我对弈

该研究介绍了 Off-FSP，这是第一个面向竞技游戏的实用无模型离线 RL 算法。通过调整固定数据集的权重以重要性采样的方式与各种对手进行模拟交互，学习最佳响应以及应用离线自我对弈学习框架，并进一步实现虚构自我对弈 (FSP) 以近似纳什均衡 (NE)，在部分覆盖的真实世界数据集中，我们的方法显示出通过融合任何单代理离线 RL 方法接近 NE 的潜力。在 Leduc Hold'em Poker 的实验证明了我们的方法与最先进的基准算法相比显著提高性能。

Feb, 2024