对比学习用于学习通信
研究使用自我监督学习的方法,通过最大化给定轨迹信息的消息之间的互信息,使用一种新的视角诱导出一个共同语言,在通信关键的环境中取得了更好的学习表现和速度,以及学习出比现有方法更一致的共同语言,而且不需要引入额外的学习参数。
Mar, 2022
本研究基于深度神经网络,提出两种学习策略(RIAL 和 DIAL),探究在多智能体感知与互动的环境下,通过学习通信协议最大化共享效益的问题。研究表明通过这种中心化学习、分散式执行的方法能够在通信难题和多智能体计算机视觉问题领域中实现端到端的协议学习。
May, 2016
本文提出了一个框架,利用神经消息编码器来学习多智能体强化学习中的通信策略,包括消息传输时机、消息内容以及如何保留消息信息。模拟实际的无线网络环境下,与现有技术相比,该框架在游戏性能、收敛速度和通信效率方面都有显著提高。
Sep, 2022
在现代机器学习中,标准强化学习算法在学习竞争代理之间的通信方面表现出仅有的负面结果。我们引入了一种改进的发送者 - 接收者游戏来研究部分竞争场景的光谱,并展示了通信确实可以在竞争环境中出现。我们通过实验证明了以下三个关键的研究成果。首先,我们表明通信与合作成正比例,并且可以使用标准学习算法在部分竞争的场景中发生。其次,我们强调了通信和操纵之间的区别,并将以前的通信度量扩展到了竞争的情况下。第三,我们研究了协商游戏,在此之前的研究未能学习到独立代理之间的通信(Cao et al.,2018)。我们证明,在这种情况下,两个代理都必须受益于通信才能出现;通过对游戏进行轻微修改,我们展示了竞争代理之间成功通信的情况。我们希望这项工作能推翻误解并激发更多的竞争性新兴通信方面的研究。
Jan, 2021
多智能体系统中的信息交流在部分可观察环境中提高智能体之间的合作,本文考虑了基于有限和不可靠信道下智能体的合作通信,通过提出一种基于独立 Q 学习的新型通信方法,智能体可以动态适应信息共享的量,从而根据本地观察和信道特性发送不同大小的消息,同时智能体学习编码和解码消息以提升共同训练的策略,在合作式数字预测环境中,我们展示了相比于没有自适应能力的方法,我们的方法表现更好,并讨论了其在交通路口环境中的局限性。
Nov, 2023
本研究使用强化学习来探索多智能体间的通信,模拟真实世界的压力,并比较实施在多步骤任务中的自然通信和基于非自然通信的良好交流之间的差异,研究结果表明,自然通信可以更有效地激励有效,类似于人类的沟通。
Nov, 2022
通过玩转指代博弈,研究者们发现使用可微分方式(ST Gumbel-softmax estimator)的强化学习方法能够有效地解决学习沟通的问题,从而使得交互遵循自然语言的组成性和可变性。
May, 2017
该论文提出了一种新的框架,可以在无线通信信道上按照通信的最终目标传输消息,重点研究了监督学习和强化学习任务,并提出了学习通信系统和任务的端到端算法。该方法可以适应任何类型的目标或任务,重点是通过传输图像进行了性能比较。
Nov, 2022
通过研究 negotiation environment 中不同类型 agent 之间的交互过程,以及不同类型 agent 是否会进行 cheap talk,作者探讨了 cooperation 在语言产生中的必要性问题。
Apr, 2018