使用深度分布式递归 Q 网络学习通信以解决谜题

Feb, 2016

使用深度分布式递归 Q 网络学习通信以解决谜题

Learning to Communicate to Solve Riddles with Deep Distributed Recurrent Q-Networks

Jakob N. Foerster, Yannis M. Assael, Nando de Freitas, Shimon Whiteson

TL;DR提出深度分布式循环 Q 网络（DDRQN），使用強化学习训练多智能体自主学习协作中的沟通协议，实现自行决定并达成一致的沟通协议来解决协作问题，成功地建立一个漂亮且有效的沟通协议是其突出贡献。

Abstract

We propose deep distributed recurrent q-networks (DDRQN), which enable teams of agents to learn to solve communication-based coordination tasks. In these tasks, the agents are not given any pre-designed communica

deep distributed recurrent q-networks communication-based coordination tasks multi-agent learning reinforcement learning communication protocols

发现论文，激发创造

深度多智能体强化学习中的通信学习

本研究基于深度神经网络，提出两种学习策略（RIAL 和 DIAL），探究在多智能体感知与互动的环境下，通过学习通信协议最大化共享效益的问题。研究表明通过这种中心化学习、分散式执行的方法能够在通信难题和多智能体计算机视觉问题领域中实现端到端的协议学习。

May, 2016

通过基于记忆的通信提高小规模多智体深度强化学习中的协调

本文提出了一个基于深度确定性策略梯度的多智能体训练框架，利用存储设备并发端到端学习明确的通信协议，来提高小规模系统中智能体的协作和性能，同时研究了不同通信模式对性能的影响。

Jan, 2019

ACCNet: 深度多智能体强化学习中用于 “学习通讯” 的演员 - 协调器 - 评论家网络

本文通过提出 Actor-Coordinator-Critic Net (ACCNet) 框架，结合强化学习和深度学习技术，在多智能体环境下实现更好的学习通信协议能力，并对学习到的协议进行分析和设计探讨。

Jun, 2017

深度强化学习下面向对话状态跟踪和管理的端到端学习

该论文提出了一个基于 Deep Recurrent Q-Networks 变体的端到端对话系统框架，使用强化学习与监督学习的混合算法，在 20 Questions 游戏模拟器上的实验结果表明，该模型优于基线模型，并学习了潜在对话状态的分布式表示。

Jun, 2016

使用自然语言行动空间的深度强化学习

本文介绍了一种新的强化学习体系架构，它是专门设计用于处理自然语言状态和动作空间，适用于文本类型游戏。该体系架构称为深度强化相关网络（DRRN），可以将动作和状态空间表示为独立的嵌入向量，并通过交互函数与 Q 函数一起拟合以实现强化学习。在两个受欢迎的文本游戏上对 DRRN 进行评估，表现优于其他深度 Q 学习体系架构。对具有不同措辞的动作描述进行的实验表明，该模型在提取意义而非仅仅是记忆文本串方面表现出色。

Nov, 2015

用深度 Transformer Q 网络进行部分可观察强化学习

本文提出了一种基于 Transformer 和自注意力机制的全新架构 Deep Transformer Q-Networks（DTQN），可用于处理强化学习中的局部可见性、记忆和训练困难等问题，实验结果表明该模型相较于传统的循环神经网络方式在处理局部可视化任务时更加快速和稳定。

Jun, 2022

多智能体强化学习中通信调度的学习

本研究提出了一种名为 SchedNet 的多智能体强化学习框架，其中智能体能够自主学习如何安排通讯、编码消息以及根据接收到的信息选择动作，并在合作通讯与导航以及捕猎等不同应用场景下展示了比其他机制更显著的表现差距，达到 32% 至 43% 的性能优势。

Feb, 2019

多智能体系统的深度策略推断 Q 网络

本文介绍了 DPIQN 和 DRPIQN，这两个深度增强学习网络通过使用从协作者和对手的原始观察中推断出的策略特征来改进对可控制代理的 Q 值预测，适用于具有不同策略的协作者、对手和可控制代理的多智能体系统中。作者通过 1 对 1 和 2 对 2 的经典足球游戏等多种多智能体场景中的实验证明了这两个模型的高性能。

Dec, 2017

深度强化学习下的多智能体合作与竞争

本文探讨了如何在多智能体环境下，运用扩展后的 Deep Q-Learning Network，使两个由独立的 Deep Q-Networks 控制的 agents，相互作用以玩经典的电子游戏乒乓球，以及通过改变 Pong 经典奖励方案，演示出竞争和合作性行为的出现。研究表明 Deep Q-Networks 可以成为在高度复杂环境中研究分散式学习的多智能体系统的实用工具。

Nov, 2015

金丝雀与哨声：具有或不具有深度强化学习的弹性无人机通信网络

在本研究中，我们考虑了一种具有挑战性的情境，其中无人机在供应链的制造过程中受到了损害，并携带着能够广泛传播和带来破坏的恶意软件。我们通过研究多智能体深度强化学习作为一种学习防御策略、最大化通信带宽的工具，来解决这一问题。通过使用一个公共挑战任务来学习网络韧性策略，我们提出了一种先进的专家技术，并研究了其相对于深度强化学习智能体的优越性。相应地，我们确定了三种改进学习智能体性能的具体方法：（1）保证每个观测包含必要的信息，（2）使用专家智能体为学习提供课程，（3）密切关注奖励。我们应用了这些方法，并提出了一种新的混合策略，使专家智能体和学习智能体能够共同合作，并在所有先前结果的基础上取得改进。

Dec, 2023