通过行为隐式学习通信
研究了协作团队之间的自然语言指令传递在多模态贝叶斯逆向规划中的应用,发现使用语言指令可以更快、更准确地推断出团队目标,强调了语言沟通对于协作任务的重要性。
Jun, 2023
本研究介绍了一种名为意图嵌入通信(IEC)的新算法,能够模仿多智能体学习语言的能力,并通过耦合进化学习来加快学习速度,并在三种协作场景下表现出比 MADDPG 等基线更优异的性能表现。
Mar, 2022
研究如何使用自然语言来协同解决物理装配问题,结果表明,参与者通过使用更高级别的指称表达逐渐提供越来越简洁的指示,从而达成了共享过程中的概念抽象,这为智能体之间的共同程序化抽象的协调提供了归纳偏见的启示。
Jun, 2021
通过评估神经人工智能代理在协作性参照游戏中对伙伴行为的适应性,本文将语言准确性和协调任务作为强化学习问题进行建模,研究了共同强化学习算法(PPO)能否训练出在不同启发式跟随者行为(在自信程度和自治程度维度上变化)下表现良好的神经引导者代理。实验结果显示,考虑到通信努力这一新因素能够导致更简洁的交流策略(在某些步骤中保持静默),同时引导者的策略确实能够根据伙伴的自信程度和自治程度进行调整。
Feb, 2024
该研究提出了一种新的方法,通过为每个机器人定义不同的角色来实现团队协作,从而代替直接通信,使机器人同伴正确理解彼此行动的含义,研究结果表明,利用不同角色的协作效果与显式交流不相上下.
Oct, 2019
本文通过引入多智能体训练框架,提出交互式学习作为一种替代奖励或演示驱动学习的方法,并通过一系列实验展示了信息共享、信息查询和问答等交互学习行为的出现,最终发现该方法可以使得自主智能体在不需要显式演示或奖励函数的情况下,与人类合作执行任务并获得更好表现的能力。
Jun, 2019
该研究提出了一种名为 off-belief learning(OBL)的方法,通过多层次认知推理来解决基于自习的 Dec-POMDPs(分布式部分可观测马尔科夫决策过程)在测试阶段无法适应人类行为模式的问题,并在 Hanabi 基准测试中展现了强大的表现。
Mar, 2021
在机器人策略学习中,使用隐式模型的监督策略学习通常表现更好,这种策略不需要奖励信息,可以学习复杂的行为,并能够在具有高度组合复杂性和毫米级精度要求的任务中学习人类示范的复杂行为。
Sep, 2021
提出了 Individually Inferred Communication 模型,通过因果推断学习通信先验,并利用前馈神经网络实现代理之间的通信。该模型成功地减少了通信开销并提高了多种多代理合作场景中的表现。
Jun, 2020
本研究提出了一种基于信念空间的策略学习模型,可以在测试时间解码和适应新颖的规约,从而显著提高各种策略池中的特定反应的搜索和训练,同时增强智能体规约的可解释性和可解释性。
Jun, 2022