通过行为隐式学习通信

AAAIOct, 2018

Learning to Communicate Implicitly By Actions

Zheng Tian, Shihao Zou, Ian Davies, Tim Warr, Lisheng Wu...

TL;DR本研究提出了一种名为 PBL 的算法，用于在协作游戏中进行隐式信息传递，通过使用先验信仰模块和策略模块来完成通信的前半部分和后半部分，并通过辅助奖励激励代理通过行动来进行信息传递，实验表明此辅助奖励有效且易于推广。

Abstract

In situations where explicit communication is limited, human collaborators act by learning to: (i) infer meaning behind their partner's actions, and (ii) convey private information about the state to their partner implicitly through actions. The first component of this learning process has been well-studied in →

collaborative games implicit communication multi-agent systems policy belief learning auxiliary reward

发现论文，激发创造

从行动和指令推断沟通代理的目标

研究了协作团队之间的自然语言指令传递在多模态贝叶斯逆向规划中的应用，发现使用语言指令可以更快、更准确地推断出团队目标，强调了语言沟通对于协作任务的重要性。

Jun, 2023

学习推断嵌入信仰的交流

本研究介绍了一种名为意图嵌入通信（IEC）的新算法，能够模仿多智能体学习语言的能力，并通过耦合进化学习来加快学习速度，并在三种协作场景下表现出比 MADDPG 等基线更优异的性能表现。

Mar, 2022

共享过程抽象的通信学习

研究如何使用自然语言来协同解决物理装配问题，结果表明，参与者通过使用更高级别的指称表达逐渐提供越来越简洁的指示，从而达成了共享过程中的概念抽象，这为智能体之间的共同程序化抽象的协调提供了归纳偏见的启示。

Jun, 2021

协同参考游戏中不同追随者行为的学习沟通策略

通过评估神经人工智能代理在协作性参照游戏中对伙伴行为的适应性，本文将语言准确性和协调任务作为强化学习问题进行建模，研究了共同强化学习算法（PPO）能否训练出在不同启发式跟随者行为（在自信程度和自治程度维度上变化）下表现良好的神经引导者代理。实验结果显示，考虑到通信努力这一新因素能够导致更简洁的交流策略（在某些步骤中保持静默），同时引导者的策略确实能够根据伙伴的自信程度和自治程度进行调整。

Feb, 2024

从我的伙伴行动中学习：去中心化机器人团队中的角色

该研究提出了一种新的方法，通过为每个机器人定义不同的角色来实现团队协作，从而代替直接通信，使机器人同伴正确理解彼此行动的含义，研究结果表明，利用不同角色的协作效果与显式交流不相上下.

Oct, 2019

互动学习和辅助学习

本文通过引入多智能体训练框架，提出交互式学习作为一种替代奖励或演示驱动学习的方法，并通过一系列实验展示了信息共享、信息查询和问答等交互学习行为的出现，最终发现该方法可以使得自主智能体在不需要显式演示或奖励函数的情况下，与人类合作执行任务并获得更好表现的能力。

Jun, 2019

离线信任学习

该研究提出了一种名为 off-belief learning（OBL）的方法，通过多层次认知推理来解决基于自习的 Dec-POMDPs（分布式部分可观测马尔科夫决策过程）在测试阶段无法适应人类行为模式的问题，并在 Hanabi 基准测试中展现了强大的表现。

Mar, 2021

隐式行为克隆

在机器人策略学习中，使用隐式模型的监督策略学习通常表现更好，这种策略不需要奖励信息，可以学习复杂的行为，并能够在具有高度组合复杂性和毫米级精度要求的任务中学习人类示范的复杂行为。

Sep, 2021

为多智能体协作学习个体推断通信

提出了 Individually Inferred Communication 模型，通过因果推断学习通信先验，并利用前馈神经网络实现代理之间的通信。该模型成功地减少了通信开销并提高了多种多代理合作场景中的表现。

Jun, 2020

合作人工智能的广义信念

本研究提出了一种基于信念空间的策略学习模型，可以在测试时间解码和适应新颖的规约，从而显著提高各种策略池中的特定反应的搜索和训练，同时增强智能体规约的可解释性和可解释性。

Jun, 2022