学习推断嵌入信仰的交流
提出了 Individually Inferred Communication 模型,通过因果推断学习通信先验,并利用前馈神经网络实现代理之间的通信。该模型成功地减少了通信开销并提高了多种多代理合作场景中的表现。
Jun, 2020
通过使用预训练的大型语言模型,我们比较了基于多智能体深度强化学习 (MADRL) 的紧急通信 (EC) 和以人类语言为基础的语义通信 (LSC),在一个多智能体远程导航任务中,使用多模态输入数据,显示了 EC 在使用多模态数据时产生高成本和困难,而 LSC 由于 LLM 的巨大规模造成了高推理计算成本。为了解决各自的瓶颈问题,我们提出了一种通过知识蒸馏 (KD) 引导 EC 训练的语言引导 EC (LEC) 的新框架。模拟结果证实,LEC 在避开信道信号差区域的同时,实现了更快的行程时间,并且相比于 EC 加速了 MADRL 训练收敛速度达 61.8%。
Jan, 2024
通过使用名为通信效率交互学习(CEIL)的新学习框架,将人类的渐进式高效沟通方式复制到 AI 代理中,以抽象、动态的语言装备学习代理,并在最小化通信的同时激励学习,实现了人类模式的出现,使学习者和教师通过交换越来越抽象的意图逐渐高效地沟通,该框架在 2D MineCraft 领域的决策性任务中表现出了令人印象深刻的性能和沟通效率,与同样数量的教师互动相比,使用 CEIL 训练的代理快速掌握新任务,绝对成功率比非分层和分层模仿学习分别提高了 50% 和 20%,特别是在以人类实用沟通行为为模型的教师模型中表现出了稳健性。
Oct, 2023
研究使用自我监督学习的方法,通过最大化给定轨迹信息的消息之间的互信息,使用一种新的视角诱导出一个共同语言,在通信关键的环境中取得了更好的学习表现和速度,以及学习出比现有方法更一致的共同语言,而且不需要引入额外的学习参数。
Mar, 2022
研究将最近开发的 BabyAI 网格世界平台转变为发送者 / 接收者设置,以测试深层强化学习技术是否足以激励建立通用代理之间的基于地面的离散通信协议的假设。结果表明,适当的环境激励确实可以避免测量或特殊归纳偏差的情况,而且更长的通信间隔激励了更抽象的语义。一些情况下,通讯代理比一个单一的代理更快地适应了新环境,展示了新兴通信对于迁移学习和泛化的潜力。
Jan, 2020
提出了一种名为 EC^2 的新颖方案,用于预训练视频语言表示以进行 few-shot embodied control,通过紧密结合视频细节的语义和自然语言结构的紧密联系,实现了代理在新环境中快速行动的目标。该方法在 Metaworld 和 Franka Kitchen 的实验基准中表现了显着的优势,超过了以前的对比学习方法的表现。此外,对提出的联合建模方法进行了定量和定性分析,并讨论了未来的研究方向。
Apr, 2023
本研究提出了一种名为 PBL 的算法,用于在协作游戏中进行隐式信息传递,通过使用先验信仰模块和策略模块来完成通信的前半部分和后半部分,并通过辅助奖励激励代理通过行动来进行信息传递,实验表明此辅助奖励有效且易于推广。
Oct, 2018
本文中,我们提出并测试了一种使用 Emergent Communication 技术,以先前预训练好的多语言模型来改进现代无监督机器翻译系统的方法,特别是对于语料库数据量很小的语言,我们将现代多语言模型嵌入到了一个以视觉为基础的语言游戏中,并通过一个共同目标的任务去训练模型,证明此方法能够提高翻译表现,特别是对波斯语和僧伽罗语这样语言数据量很小的语言有很大的帮助。
Jul, 2022
我们研究紧急通信的问题,其中语言的产生是因为说话者和听话者必须相互交流信息以解决任务。我们引入了正向信号和正向听取的归纳偏差来解决此问题,并在简单的单步环境中演示了这些偏差如何缓解学习问题,并将我们的方法应用于更广泛的环境中,表明具有这些归纳偏差特征的工作代理人实现了更好的性能,并分析了导致的通信协议。
Dec, 2019
通过研究 negotiation environment 中不同类型 agent 之间的交互过程,以及不同类型 agent 是否会进行 cheap talk,作者探讨了 cooperation 在语言产生中的必要性问题。
Apr, 2018