通过协商实现的新兴沟通

ICLRApr, 2018

Emergent Communication through Negotiation

Kris Cao, Angeliki Lazaridou, Marc Lanctot, Joel Z Leibo, Karl Tuyls...

TL;DR通过研究 negotiation environment 中不同类型 agent 之间的交互过程，以及不同类型 agent 是否会进行 cheap talk，作者探讨了 cooperation 在语言产生中的必要性问题。

Abstract

multi-agent reinforcement learning offers a way to study how communication could emerge in communities of agents needing to solve specific problems. In this paper, we study the emergence of →

multi-agent reinforcement learning communication negotiation environment cheap talk cooperation

发现论文，激发创造

学习合作：多智能体导航中的新兴通信

本研究探讨了人工智能代理的紧急沟通现象以了解其语言演化，发展出能够与人类有效沟通的人工智能系统，发现代理人在不同网格环境下进行合作导航任务时，学习了解释性的沟通协议，使其能够高效地解决任务，分析了代理人的策略，发现紧急信号在空间上聚集在一起，信号指向特定的位置和空间方向，如 “左”，“上” 或 “左上房间”，使用代理人群体，我们展示了出现的协议具有基本组合结构，从而表现出自然语言的核心属性。

Apr, 2020

关于新兴沟通在多智能体强化学习中的社会学习作用

本文提出了一种基于信息瓶颈的无监督方法，用于探索非常稀疏的多智能体增强学习中的社交通信情境，该方法可以捕捉引用复杂性和任务特定效用，并开发出一种自然语言灵感的信息组成的词汇表，该词汇表独立于一组紧急概念，使其具有极小的位数，同时可以使用社交影子的观测构成，并通过社交影子来学习通信策略。

Feb, 2023

具有新兴通讯的网络多智能体强化学习

本研究使用紧密联系的智能体通过互相交流离散符号彼此合作完成任务。通过分析他们之间的交流，证明了他们发展的语言与网络拓扑有关，并在交通控制器问题上实现了最先进的性能。

Apr, 2020

竞争中的紧急沟通

在现代机器学习中，标准强化学习算法在学习竞争代理之间的通信方面表现出仅有的负面结果。我们引入了一种改进的发送者 - 接收者游戏来研究部分竞争场景的光谱，并展示了通信确实可以在竞争环境中出现。我们通过实验证明了以下三个关键的研究成果。首先，我们表明通信与合作成正比例，并且可以使用标准学习算法在部分竞争的场景中发生。其次，我们强调了通信和操纵之间的区别，并将以前的通信度量扩展到了竞争的情况下。第三，我们研究了协商游戏，在此之前的研究未能学习到独立代理之间的通信（Cao et al.，2018）。我们证明，在这种情况下，两个代理都必须受益于通信才能出现；通过对游戏进行轻微修改，我们展示了竞争代理之间成功通信的情况。我们希望这项工作能推翻误解并激发更多的竞争性新兴通信方面的研究。

Jan, 2021

多智能体通讯游戏中的紧急语言现象

本文提出了使用深度强化学习进行训练的带有通信能力的智能体在同时进行一系列指称游戏的计算框架，证明了框架反映了自然语言中观察到的语言现象，即语言演化的复杂属性可以不依赖于复杂的语言能力而是可以从视觉感知智能体之间的简单社交交流中产生。

Jan, 2019

探索具有体现多智能体的零射击新兴通信

本研究探讨在多智能体环境中，利用关节执行通信的新型通信模式，解决现有符号通信模式不能够解决的一些问题，提出具体的训练改进方案，实现了对新伙伴的协议推广。

Oct, 2020

深度学习时代的紧急多智能体交流

研究表明，随着深度人工网络的感知、移动和规划能力的增强，研究人员正在研究它们是否也能发展出共享语言来相互交互，并探讨语言在深度代理人群体中演化及紧急特性的条件，这既有助于理解人类语言进化的过程，也可以让深度网络在日常生活中更加灵活和有用。本文概述了各角度最具代表性的语言演化研究。

Jun, 2020

多智能体强化学习中涌现交流的偏差

我们研究紧急通信的问题，其中语言的产生是因为说话者和听话者必须相互交流信息以解决任务。我们引入了正向信号和正向听取的归纳偏差来解决此问题，并在简单的单步环境中演示了这些偏差如何缓解学习问题，并将我们的方法应用于更广泛的环境中，表明具有这些归纳偏差特征的工作代理人实现了更好的性能，并分析了导致的通信协议。

Dec, 2019

泛化基于 emergent 原理的通信

研究将最近开发的 BabyAI 网格世界平台转变为发送者 / 接收者设置，以测试深层强化学习技术是否足以激励建立通用代理之间的基于地面的离散通信协议的假设。结果表明，适当的环境激励确实可以避免测量或特殊归纳偏差的情况，而且更长的通信间隔激励了更抽象的语义。一些情况下，通讯代理比一个单一的代理更快地适应了新环境，展示了新兴通信对于迁移学习和泛化的潜力。

Jan, 2020

多智能体游戏中语言的出现：学习使用符号序列进行沟通

通过玩转指代博弈，研究者们发现使用可微分方式（ST Gumbel-softmax estimator）的强化学习方法能够有效地解决学习沟通的问题，从而使得交互遵循自然语言的组成性和可变性。

May, 2017