具有连贯言者的交互世界中的交流出现
研究将最近开发的 BabyAI 网格世界平台转变为发送者 / 接收者设置,以测试深层强化学习技术是否足以激励建立通用代理之间的基于地面的离散通信协议的假设。结果表明,适当的环境激励确实可以避免测量或特殊归纳偏差的情况,而且更长的通信间隔激励了更抽象的语义。一些情况下,通讯代理比一个单一的代理更快地适应了新环境,展示了新兴通信对于迁移学习和泛化的潜力。
Jan, 2020
研究算法在学习语言进化中起到的作用,通过深度学习方法和 RL 神经网络代理进行了提高,并开发出代理能够从原始像素数据中学习的能力,研究表明输入数据中的结构程度影响出现的协议的性质,并证实当代理感知到世界的结构时,结构化的组合性语言很可能会出现。
Apr, 2018
研究使用自我监督学习的方法,通过最大化给定轨迹信息的消息之间的互信息,使用一种新的视角诱导出一个共同语言,在通信关键的环境中取得了更好的学习表现和速度,以及学习出比现有方法更一致的共同语言,而且不需要引入额外的学习参数。
Mar, 2022
本研究探讨在多智能体环境中,利用关节执行通信的新型通信模式,解决现有符号通信模式不能够解决的一些问题,提出具体的训练改进方案,实现了对新伙伴的协议推广。
Oct, 2020
通过研究 negotiation environment 中不同类型 agent 之间的交互过程,以及不同类型 agent 是否会进行 cheap talk,作者探讨了 cooperation 在语言产生中的必要性问题。
Apr, 2018
我们研究紧急通信的问题,其中语言的产生是因为说话者和听话者必须相互交流信息以解决任务。我们引入了正向信号和正向听取的归纳偏差来解决此问题,并在简单的单步环境中演示了这些偏差如何缓解学习问题,并将我们的方法应用于更广泛的环境中,表明具有这些归纳偏差特征的工作代理人实现了更好的性能,并分析了导致的通信协议。
Dec, 2019
通过玩转指代博弈,研究者们发现使用可微分方式(ST Gumbel-softmax estimator)的强化学习方法能够有效地解决学习沟通的问题,从而使得交互遵循自然语言的组成性和可变性。
May, 2017
本文提出了一种基于信息瓶颈的无监督方法,用于探索非常稀疏的多智能体增强学习中的社交通信情境,该方法可以捕捉引用复杂性和任务特定效用,并开发出一种自然语言灵感的信息组成的词汇表,该词汇表独立于一组紧急概念,使其具有极小的位数,同时可以使用社交影子的观测构成,并通过社交影子来学习通信策略。
Feb, 2023
采用新颖的无监督知识转移方式,在缺乏语言数据时通过基于图像的指称游戏进行神经网络预训练,成功地提高了 few-shot 学习中的机器翻译效果,同时为评估人造语言的性质提供了基于表现的外部评估途径。
Nov, 2020
该研究证实了深度神经网络在自我训练过程中的无监督紧急通讯协议在真实情况下是可行的,能够顺利地识别对象,而且还能作为通用视觉特征。
Jun, 2021