廉价对话算法

Oct, 2023

Cheap Talking Algorithms

Daniele Condorelli, Massimiliano Furlan

TL;DR我们模拟独立强化学习算法在 Crawford 和 Sobel (1982) 的战略信息传输游戏中的行为，显示出训练一起的发送方和接收方收敛到接近游戏先验最优均衡的策略，从而在代理之间的利益冲突程度给出的前提下，按照 Nash 均衡预测发生最大程度的通信。我们发现这个结论在超参数和游戏的替代规范下是稳健的。我们讨论了对信息传输游戏中均衡选择理论、计算机科学中算法间新兴通信的作用以及市场中由人工智能代理人组成的勾结经济的影响。

Abstract

We simulate behaviour of independent reinforcement learning algorithms playing the Crawford and Sobel (1982) game of strategic information transmission. We show that a sender and a receiver training together converge to strategies close to the exante optimal equilibrium of the game. He

reinforcement learning algorithms strategic information transmission nash equilibrium equilibrium selection emerging communication among algorithms

发现论文，激发创造

网络图形博弈中的分布式纳什均衡寻求

本文研究了在图形网络游戏中使用分布式八卦方法寻找纳什均衡的方法，介绍了干扰图和通信图的概念，设计了通信图以使玩家仅交换必要的信息，证明了使用干扰和通信图的八卦方法在收敛步长逐渐缩小的情况下能够几乎一定收敛于纳什均衡。

Mar, 2017

多发信者说服 —— 一个计算视角

多发信人，信息优势，纳什平衡，可微神经网络和帕累托支配是该篇论文的关键词和主题。

Feb, 2024

竞争中的紧急沟通

在现代机器学习中，标准强化学习算法在学习竞争代理之间的通信方面表现出仅有的负面结果。我们引入了一种改进的发送者 - 接收者游戏来研究部分竞争场景的光谱，并展示了通信确实可以在竞争环境中出现。我们通过实验证明了以下三个关键的研究成果。首先，我们表明通信与合作成正比例，并且可以使用标准学习算法在部分竞争的场景中发生。其次，我们强调了通信和操纵之间的区别，并将以前的通信度量扩展到了竞争的情况下。第三，我们研究了协商游戏，在此之前的研究未能学习到独立代理之间的通信（Cao et al.，2018）。我们证明，在这种情况下，两个代理都必须受益于通信才能出现；通过对游戏进行轻微修改，我们展示了竞争代理之间成功通信的情况。我们希望这项工作能推翻误解并激发更多的竞争性新兴通信方面的研究。

Jan, 2021

自适应算法和耦合协作

该研究基于连续时间技术提出了一个理论模型，旨在研究适应性学习算法之间的策略互动。通过揭示算法之间的自发耦合机制，该研究证明了人工智能算法之间存在的勾结现象，并提出了一种足以消除算法间自发耦合的充分条件，以及设计学习鲁棒性策略的机制所必要的回馈机制。

Feb, 2022

Bayes 相关均衡和无悔动态

本文探讨了贝叶斯博弈的均衡概念，包括相关均衡、通信均衡，推导出基于均衡对策的博弈稳定状态的实现方法，提出一种满足稳定、高效、优化多个博弈均衡的新均衡概念。

Apr, 2023

合作多智能体强化学习中实用通信策略的学习

本文提出了一个框架，利用神经消息编码器来学习多智能体强化学习中的通信策略，包括消息传输时机、消息内容以及如何保留消息信息。模拟实际的无线网络环境下，与现有技术相比，该框架在游戏性能、收敛速度和通信效率方面都有显著提高。

Sep, 2022

通过收益查询学习博弈的均衡

本文研究了基于局部知识来学习研究各种类型的博弈及其均衡求解的复杂度，探讨了计算学习模型和对于各种博弈的查询复杂度，着重研究了对称网络拥塞博弈，并通过仅查询少量的纯策略来学习成本函数。

Feb, 2013

通过协商实现的新兴沟通

通过研究 negotiation environment 中不同类型 agent 之间的交互过程，以及不同类型 agent 是否会进行 cheap talk，作者探讨了 cooperation 在语言产生中的必要性问题。

Apr, 2018

多智能体强化学习中涌现交流的偏差

我们研究紧急通信的问题，其中语言的产生是因为说话者和听话者必须相互交流信息以解决任务。我们引入了正向信号和正向听取的归纳偏差来解决此问题，并在简单的单步环境中演示了这些偏差如何缓解学习问题，并将我们的方法应用于更广泛的环境中，表明具有这些归纳偏差特征的工作代理人实现了更好的性能，并分析了导致的通信协议。

Dec, 2019

广泛博弈对抗团队游戏的计算结果

我们提供了这是我们所知的第一次对广泛形式的对抗性团队博弈进行计算研究。通过分别定义三种不同的通讯能力场景，我们研究了团队成员之间的通讯对解决方案的影响，同时也考虑了一些计算复杂性问题。最终通过实证研究来展示其可扩展性和不同通讯能力场景下的不足效率。

Nov, 2017