对手建模中的双重深度 Q 学习
本文介绍了一种基于神经网络和任务多项式结构的对手建模方法,该方法能够应用于多智能体环境下的策略自适应,通过对足球和智力竞赛等游戏的模拟实验可知该方法胜于深度 Q 网络及其衍生方法。
Sep, 2016
本文探讨了如何在多智能体环境下,运用扩展后的 Deep Q-Learning Network,使两个由独立的 Deep Q-Networks 控制的 agents,相互作用以玩经典的电子游戏乒乓球,以及通过改变 Pong 经典奖励方案,演示出竞争和合作性行为的出现。研究表明 Deep Q-Networks 可以成为在高度复杂环境中研究分散式学习的多智能体系统的实用工具。
Nov, 2015
本研究使用变分自编码器对多智能体系统中特定行为进行对手建模,以及提出了一种使用局部信息来识别对手模型的方法,结果表明我们的对手建模方法在强化学习任务中取得了相当好的结果。
Jan, 2020
提出了一种基于分布式 Actor-Critic 算法的多智能体虚拟对手建模方法,通过构建虚拟模型来模拟未观察到对手的行为,使用本地可得信息实现虚拟对手模型的训练和优化。实验证明该方法能有效准确地模拟对手行为,相较于基线方法具有更快的收敛速度并显著提升了性能表现。
Nov, 2022
本文介绍了 DPIQN 和 DRPIQN,这两个深度增强学习网络通过使用从协作者和对手的原始观察中推断出的策略特征来改进对可控制代理的 Q 值预测,适用于具有不同策略的协作者、对手和可控制代理的多智能体系统中。作者通过 1 对 1 和 2 对 2 的经典足球游戏等多种多智能体场景中的实验证明了这两个模型的高性能。
Dec, 2017
该研究聚焦于利用自主攻击性方法在深度强化学习 (DRL) 中提升训练的鲁棒性,并探索在软件定义网络 (SDN) 中将对抗学习应用于 DRL 以实现自主安全性的影响。通过比较两个算法,DDQN 和 NEC2DQN(或 N2D),发现通过引入因果性攻击来实施对抗学习,算法仍能根据自身的具体优势保护网络。
Aug, 2023
本文提出了一种名为 WDDQN 的多智能体深度强化学习框架,通过利用加权双估计器和深度神经网络,在具有原始视觉输入的场景下有效地减少偏差,并引入宽以待人的奖励网络和调度重放策略以实现多智能体领域的有效合作,实验证明 WDDQN 在随机合作环境中在平均奖励和收敛速度方面优于现有的 DRL 和多智能体 DRL 算法,即双重 DQN 和宽以待人的 Q-learning。
Feb, 2018
本文提出基于模型的对手建模(MBOM)方法,通过模拟环境模型中的递归推理过程和混合想象对手策略来适应各种类型的对手,在固定策略、初学者和推理者等多重对手场景中,MBOM 的适应性比现有方法更优。
Aug, 2021