本研究使用紧密联系的智能体通过互相交流离散符号彼此合作完成任务。通过分析他们之间的交流,证明了他们发展的语言与网络拓扑有关,并在交通控制器问题上实现了最先进的性能。
Apr, 2020
本研究提供了一个笔记,从博弈论的角度全面介绍了现代多代理强化学习技术的基础和最新发展,旨在为即将进入这个快速增长的领域的新研究人员和现有领域专家提供有关目前最先进的 MARL 技术的自包含评估,并根据最新进展确定新方向。
Nov, 2020
近年来,大型语言模型在问题回答、算术问题解决和诗歌创作等各种任务中展示了强大的能力。尽管关于以大型语言模型为代理的研究表明它可以应用于强化学习并取得不错的结果,但将基于大型语言模型的强化学习扩展到多智能体系统并不容易,因为许多方面,如智能体之间的协调和通信,在单智能体的强化学习框架中没有得到考虑。为了激发更多关于基于大型语言模型的多智能体强化学习的研究,本文调查了现有的基于大型语言模型的单智能体和多智能体强化学习框架,并提供了未来研究的潜在方向。特别关注多智能体共同目标合作任务和它们之间的通信,还考虑了语言组件在框架中实现的人机交互场景。
May, 2024
研究对多智能体强化学习的通信方法进行了调查,发现独立学习者在不共享参数的情况下仍然可以学习通信策略,并观察到通信在不同网络容量下的影响。
Jan, 2024
本文提出了使用深度强化学习进行训练的带有通信能力的智能体在同时进行一系列指称游戏的计算框架,证明了框架反映了自然语言中观察到的语言现象,即语言演化的复杂属性可以不依赖于复杂的语言能力而是可以从视觉感知智能体之间的简单社交交流中产生。
Jan, 2019
提出了一种交互式多模态框架,通过协作推理游戏,实现神经网络学习语言,初步实验结果可喜,但需注意避免智能体发展出仅针对游戏有效的特定通信编码。
May, 2016
本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法,用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题,并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.
Nov, 2017
本文提出了一种基于角色的多智能体强化学习框架,称为 ROMA,用于推进 StarCraft II 微观管理基准测试的艺术水平,该框架中的角色是新兴的,代理人倾向于在某些子任务上专业化,并添加了新的规则器来构建随机的角色嵌入空间。
Mar, 2020
本文介绍了多个方面可以在设计和开发多智能体强化学习系统中扮演角色的通信,并提出了 Comm-MARL 系统分析、开发和比较的几个维度。
Mar, 2022
通过在单一统一的机器学习范式中正式定义大型语言模型(LLM)的训练过程,包括预训练、监督微调和强化学习与人类反馈,我们可以获得推进 LLM 技术的重要见解。本文勾勒出 LLM 训练方法与两人博弈中代理人发展所采用的战略之间的相似之处,从博弈论、强化学习和多智能体系统的角度研究。我们提出了一种用基于语言游戏中代理人学习的方式重新构思 LLM 学习过程的框架。这个框架揭示了 LLM 发展中成功和挑战的创新视角,为解决对齐问题等战略考虑提供了新的理解。此外,我们的两人博弈方法为 LLM 训练提供了新颖的数据准备和机器学习技术。
Feb, 2024