Verco：多智能体强化学习中协调语言沟通的学习

Apr, 2024

Verco：多智能体强化学习中协调语言沟通的学习

Verco: Learning Coordinated Verbal Communication for Multi-agent Reinforcement Learning

Dapeng Li, Hang Dong, Lu Wang, Bo Qiao, Si Qin...

TL;DR我们提出了一种新的多智能体强化学习算法，将大型语言模型嵌入到智能体中，使其能够生成人类可理解的口头沟通，通过在智能体之间进行信息共享来显著提高学习效率和性能，并为人类提供解释多智能体合作过程的工具。

Abstract

In recent years, multi-agent reinforcement learning algorithms have made significant advancements in diverse gaming environments, leading to increased interest in the broader application of such techniques. To address the prevalent challenge of partial observability, →

multi-agent reinforcement learning communication-based algorithms collaborative mechanisms large language models interpretable tool

发现论文，激发创造

通过基于记忆的通信提高小规模多智体深度强化学习中的协调

本文提出了一个基于深度确定性策略梯度的多智能体训练框架，利用存储设备并发端到端学习明确的通信协议，来提高小规模系统中智能体的协作和性能，同时研究了不同通信模式对性能的影响。

Jan, 2019

合作多智体强化学习中的教学学习

本文提出了一种新的算法，名为 Learning to Coordinate and Teach Reinforcement（LeCTR），通过在协作多智能体强化学习中使每个代理都学习何时提供何种建议，从而改善整个团队性能和学习效果。实证比较表明，我们的教学代理不仅学习速度更快，而且在现有方法失败的任务中也学会了协作。

May, 2018

朝着基于多智能体通信的语言学习

提出了一种交互式多模态框架，通过协作推理游戏，实现神经网络学习语言，初步实验结果可喜，但需注意避免智能体发展出仅针对游戏有效的特定通信编码。

May, 2016

深度多智能体强化学习中的通信学习

本研究基于深度神经网络，提出两种学习策略（RIAL 和 DIAL），探究在多智能体感知与互动的环境下，通过学习通信协议最大化共享效益的问题。研究表明通过这种中心化学习、分散式执行的方法能够在通信难题和多智能体计算机视觉问题领域中实现端到端的协议学习。

May, 2016

通过协商实现的新兴沟通

通过研究 negotiation environment 中不同类型 agent 之间的交互过程，以及不同类型 agent 是否会进行 cheap talk，作者探讨了 cooperation 在语言产生中的必要性问题。

Apr, 2018

合作多智能体强化学习中实用通信策略的学习

本文提出了一个框架，利用神经消息编码器来学习多智能体强化学习中的通信策略，包括消息传输时机、消息内容以及如何保留消息信息。模拟实际的无线网络环境下，与现有技术相比，该框架在游戏性能、收敛速度和通信效率方面都有显著提高。

Sep, 2022

走向基础模型统一的智能体

通过在强化学习代理中嵌入和利用语言模型和视觉语言模型的能力，我们设计了一个框架，将语言作为核心推理工具，能够处理一系列强化学习挑战，如有效的探索、重用经验数据、调度技能以及从观察中学习，从而改进了在模拟的机器人操作环境中的性能，并展示了如何利用学到的技能解决新任务或模仿人类专家视频。

Jul, 2023

多智能体强化学习与通信调查

本文介绍了多个方面可以在设计和开发多智能体强化学习系统中扮演角色的通信，并提出了 Comm-MARL 系统分析、开发和比较的几个维度。

Mar, 2022

通过连续声学通道实现多智能体通信，学会说话和听话

通过使用深度 Q 学习，研究了多智能体强化学习在具有连续通信通道时的应用，发现基本组合特性会在学习的语言表示中出现。噪声在传达未经历过的概念组合时很重要，引入有倾向性的护理者可以使得新的交流创造出一种更有意义的基础语言。这个研究为深度强化学习与多智能体系统的进一步相关研究提供了平台。

Nov, 2021

具有新兴通讯的网络多智能体强化学习

本研究使用紧密联系的智能体通过互相交流离散符号彼此合作完成任务。通过分析他们之间的交流，证明了他们发展的语言与网络拓扑有关，并在交通控制器问题上实现了最先进的性能。

Apr, 2020