多智能体系统的深度策略推断 Q 网络

Dec, 2017

多智能体系统的深度策略推断 Q 网络

A Deep Policy Inference Q-Network for Multi-Agent Systems

Zhang-Wei Hong, Shih-Yang Su, Tzu-Yun Shann, Yi-Hsiang Chang, Chun-Yi Lee

TL;DR本文介绍了 DPIQN 和 DRPIQN，这两个深度增强学习网络通过使用从协作者和对手的原始观察中推断出的策略特征来改进对可控制代理的 Q 值预测，适用于具有不同策略的协作者、对手和可控制代理的多智能体系统中。作者通过 1 对 1 和 2 对 2 的经典足球游戏等多种多智能体场景中的实验证明了这两个模型的高性能。

Abstract

We present dpiqn, a deep policy inference Q-network that targets multi-agent systems composed of controllable agents, collaborators, and opponents that interact with each other. We focus on one challenging issue in such systems---modeling agents with varying strategies---and propose to

multi-agent systems deep reinforcement learning policy features dpiqn drpiqn

发现论文，激发创造

深度强化学习下的多智能体合作与竞争

本文探讨了如何在多智能体环境下，运用扩展后的 Deep Q-Learning Network，使两个由独立的 Deep Q-Networks 控制的 agents，相互作用以玩经典的电子游戏乒乓球，以及通过改变 Pong 经典奖励方案，演示出竞争和合作性行为的出现。研究表明 Deep Q-Networks 可以成为在高度复杂环境中研究分散式学习的多智能体系统的实用工具。

Nov, 2015

策略蒸馏

本文介绍了一种称为 Policy Distillation 的新方法，它可以从强化学习代理中提取策略并训练出一个性能表现优异的、更小而且更高效的网络。同时，这种方法还可以将多个任务特定策略合并为一个策略并应用到 Atari 游戏中，在实验中，这个多任务提炼代理的表现要比单任务老师或联合训练的 DQN 代理更优秀。

Nov, 2015

训练韧性 Q - 网络抵御观测干扰

本文提出了一种基于因果推断的 DQN 算法 ——CIQ，用于提高在故障干扰下深度强化学习（DRL）的鲁棒性和性能。实验结果表明，CIQ 算法在多个 DQN 环境中能够获得更高的性能和更强的抗干扰能力。

Feb, 2021

灰盒子：理解 DQNs

本文介绍了分析 Deep Q-networks（DQNs）的一种方法和工具，以及自动学习 Semi Aggregated Markov Decision Process（SAMDP）模型的算法。SAMDP 模型允许我们直接从特征中识别时空抽象，并且可以在今后的工作中用作子目标检测器。使用我们的工具，我们揭示了 DQNs 学习的特征以层次方式聚合状态空间，解释了其成功。此外，我们能够理解和描述 DQNs 为三个不同的 Atari2600 游戏学习的策略，并提出解释、调试和优化强化学习中深度神经网络的方式。

Feb, 2016

对手建模中的双重深度 Q 学习

本研究使用 DDQN 和优先经验重放机制模拟主代理和二级代理的策略，并通过对手建模架构识别不同的对手策略模式，最终在两个环境下分析了我们的模型，研究结果表明基于对手建模的 Mixture-of-Experts 模型表现优于 DDQN。

Nov, 2022

FDQN：一种用于游戏自动化的灵活深度 Q 网络框架

在这项研究中，提出了一种最新的灵活深度 Q 网络 (FDQN) 框架，能够通过自适应方法在动态环境中处理高维度感知数据，实时进行决策，并动态调整模型结构以适应不同游戏环境的行动空间，相对于基准模型，在各种 Atari 游戏和 Chrome Dino 游戏中取得优异表现。该框架采用 epsilon-greedy 策略有效平衡新的学习和探索，其模块化结构可以轻松应用于其他基于 HTML 的游戏，同时提到了该框架在实验室条件下成功解决了一个明确定义的任务，并探讨了其在更具挑战的真实世界情境和自动化游戏玩法等领域的潜在应用。

May, 2024

元对话策略学习

本研究利用 Deep Transferable Q-Network (DTQN) 和 Meta-DTQN 模型，以及基于特征子空间的交叉领域知识转移，提高了跨领域对话系统的性能，同时在 MultiWOZ 2.0 多领域对话数据集上取得了成功率和对话效率的双重胜利。

Jun, 2020

基于图神经网络的谷歌研究足球智能体

本文提出了一种基于图神经网络（GNN）的深度 Q 学习网络（DQN），在 Google Research Football 框架下，将卷积神经网络难以提取足够信息的小地图输入转化成图形式，优化了估计值函数并提高了通信效率。实验证明，该模型在玩足球游戏中表现优秀，且训练速度快于其他 DRL 模型。

Apr, 2022

通过贝叶斯深度 Q 网络实现高效探索

这篇论文研究了高维情境下的强化学习，提出了两种基于乐观法和后验采样的算法来解决此问题，并扩展了该方法应用在深度强化学习上，所提出的贝叶斯深度 Q 网络通过采用贝叶斯线性回归的方法调整 Q-networks 的学习方式，使其能够充分平衡探索与执行间的权衡，更加有效地应用在 Atari 游戏中。

Feb, 2018

深度 Q 网络在人工智能足球中的应用

利用深度 Q 网络算法，成功对 AI Soccer 等 5:5 机器人足球游戏中的机器人进行训练，并在 AI Soccer 国际大赛中进入了前 16 强。

Sep, 2022