对手建模中的双重深度 Q 学习

Nov, 2022

Double Deep Q-Learning in Opponent Modeling

Yangtianze Tao, John Doe

TL;DR本研究使用 DDQN 和优先经验重放机制模拟主代理和二级代理的策略，并通过对手建模架构识别不同的对手策略模式，最终在两个环境下分析了我们的模型，研究结果表明基于对手建模的 Mixture-of-Experts 模型表现优于 DDQN。

Abstract

multi-agent systems in which secondary agents with conflicting agendas also alter their methods need opponent modeling. In this study, we simulate the main agent's and secondary agents' tactics using

multi-agent systems opponent modeling double deep q-networks mixture-of-experts architecture agent tactics

发现论文，激发创造

深度强化学习中的对手建模

本文介绍了一种基于神经网络和任务多项式结构的对手建模方法，该方法能够应用于多智能体环境下的策略自适应，通过对足球和智力竞赛等游戏的模拟实验可知该方法胜于深度 Q 网络及其衍生方法。

Sep, 2016

深度强化学习下的多智能体合作与竞争

本文探讨了如何在多智能体环境下，运用扩展后的 Deep Q-Learning Network，使两个由独立的 Deep Q-Networks 控制的 agents，相互作用以玩经典的电子游戏乒乓球，以及通过改变 Pong 经典奖励方案，演示出竞争和合作性行为的出现。研究表明 Deep Q-Networks 可以成为在高度复杂环境中研究分散式学习的多智能体系统的实用工具。

Nov, 2015

多智能体系统中对手建模的变分自编码器

本研究使用变分自编码器对多智能体系统中特定行为进行对手建模，以及提出了一种使用局部信息来识别对手模型的方法，结果表明我们的对手建模方法在强化学习任务中取得了相当好的结果。

Jan, 2020

分布式多智能体协作的对手建模层次强化学习

本文介绍了一种基于深度强化学习的多智能体协作方法，通过分布式学习实现了高效的策略搜索，并在合作变道场景中进行了仿真和实际案例验证。

Jun, 2022

使用虚拟对手模型进行决策

提出了一种基于分布式 Actor-Critic 算法的多智能体虚拟对手建模方法，通过构建虚拟模型来模拟未观察到对手的行为，使用本地可得信息实现虚拟对手模型的训练和优化。实验证明该方法能有效准确地模拟对手行为，相较于基线方法具有更快的收敛速度并显著提升了性能表现。

Nov, 2022

多智能体系统的深度策略推断 Q 网络

本文介绍了 DPIQN 和 DRPIQN，这两个深度增强学习网络通过使用从协作者和对手的原始观察中推断出的策略特征来改进对可控制代理的 Q 值预测，适用于具有不同策略的协作者、对手和可控制代理的多智能体系统中。作者通过 1 对 1 和 2 对 2 的经典足球游戏等多种多智能体场景中的实验证明了这两个模型的高性能。

Dec, 2017

多人不完美信息博弈中的贝叶斯对手建模

本研究探讨了面对多个对手的策略交互游戏，使用对手建模和观察对手策略等技术，超越纯理性策略的表现。

Dec, 2022

软件定义网络中的对抗深度强化学习在网络安全中的应用

该研究聚焦于利用自主攻击性方法在深度强化学习 (DRL) 中提升训练的鲁棒性，并探索在软件定义网络 (SDN) 中将对抗学习应用于 DRL 以实现自主安全性的影响。通过比较两个算法，DDQN 和 NEC2DQN（或 N2D），发现通过引入因果性攻击来实施对抗学习，算法仍能根据自身的具体优势保护网络。

Aug, 2023

随机协同环境中的加权双重深度多智能体强化学习

本文提出了一种名为 WDDQN 的多智能体深度强化学习框架，通过利用加权双估计器和深度神经网络，在具有原始视觉输入的场景下有效地减少偏差，并引入宽以待人的奖励网络和调度重放策略以实现多智能体领域的有效合作，实验证明 WDDQN 在随机合作环境中在平均奖励和收敛速度方面优于现有的 DRL 和多智能体 DRL 算法，即双重 DQN 和宽以待人的 Q-learning。

Feb, 2018

基于模型的对手建模

本文提出基于模型的对手建模（MBOM）方法，通过模拟环境模型中的递归推理过程和混合想象对手策略来适应各种类型的对手，在固定策略、初学者和推理者等多重对手场景中，MBOM 的适应性比现有方法更优。

Aug, 2021