关于测量新兴通讯的陷阱
本文提出了一种基于信息瓶颈的无监督方法,用于探索非常稀疏的多智能体增强学习中的社交通信情境,该方法可以捕捉引用复杂性和任务特定效用,并开发出一种自然语言灵感的信息组成的词汇表,该词汇表独立于一组紧急概念,使其具有极小的位数,同时可以使用社交影子的观测构成,并通过社交影子来学习通信策略。
Feb, 2023
研究将最近开发的 BabyAI 网格世界平台转变为发送者 / 接收者设置,以测试深层强化学习技术是否足以激励建立通用代理之间的基于地面的离散通信协议的假设。结果表明,适当的环境激励确实可以避免测量或特殊归纳偏差的情况,而且更长的通信间隔激励了更抽象的语义。一些情况下,通讯代理比一个单一的代理更快地适应了新环境,展示了新兴通信对于迁移学习和泛化的潜力。
Jan, 2020
通过研究 negotiation environment 中不同类型 agent 之间的交互过程,以及不同类型 agent 是否会进行 cheap talk,作者探讨了 cooperation 在语言产生中的必要性问题。
Apr, 2018
在现代机器学习中,标准强化学习算法在学习竞争代理之间的通信方面表现出仅有的负面结果。我们引入了一种改进的发送者 - 接收者游戏来研究部分竞争场景的光谱,并展示了通信确实可以在竞争环境中出现。我们通过实验证明了以下三个关键的研究成果。首先,我们表明通信与合作成正比例,并且可以使用标准学习算法在部分竞争的场景中发生。其次,我们强调了通信和操纵之间的区别,并将以前的通信度量扩展到了竞争的情况下。第三,我们研究了协商游戏,在此之前的研究未能学习到独立代理之间的通信(Cao et al.,2018)。我们证明,在这种情况下,两个代理都必须受益于通信才能出现;通过对游戏进行轻微修改,我们展示了竞争代理之间成功通信的情况。我们希望这项工作能推翻误解并激发更多的竞争性新兴通信方面的研究。
Jan, 2021
我们研究紧急通信的问题,其中语言的产生是因为说话者和听话者必须相互交流信息以解决任务。我们引入了正向信号和正向听取的归纳偏差来解决此问题,并在简单的单步环境中演示了这些偏差如何缓解学习问题,并将我们的方法应用于更广泛的环境中,表明具有这些归纳偏差特征的工作代理人实现了更好的性能,并分析了导致的通信协议。
Dec, 2019
本研究探讨在多智能体环境中,利用关节执行通信的新型通信模式,解决现有符号通信模式不能够解决的一些问题,提出具体的训练改进方案,实现了对新伙伴的协议推广。
Oct, 2020
本研究提出了一种利用消息量化实现离散通信的方法,可以实现优于其他基于强化学习算法或 Gumbel-softmax 的连续逼近的多种设置下的性能,并为深度学习时代下的多代理通信提供更广泛的视角。
Nov, 2022
研究纸全面审视了紧急交流研究在机器学习、自然语言处理、语言学和认知科学等领域的应用,并陈述了紧急交流在解决各应用中的独特角色、现有文献的总结以及近期研究方向的简要建议。
Jul, 2024
通过使用深度 Q 学习,研究了多智能体强化学习在具有连续通信通道时的应用,发现基本组合特性会在学习的语言表示中出现。噪声在传达未经历过的概念组合时很重要,引入有倾向性的护理者可以使得新的交流创造出一种更有意义的基础语言。这个研究为深度强化学习与多智能体系统的进一步相关研究提供了平台。
Nov, 2021
本研究使用紧密联系的智能体通过互相交流离散符号彼此合作完成任务。通过分析他们之间的交流,证明了他们发展的语言与网络拓扑有关,并在交通控制器问题上实现了最先进的性能。
Apr, 2020