语言模型网络中的问题解决
研究使用大规模语言模型(LLMs)驱动的多 Agent 系统在协作中解决复杂任务的能力。主要考虑多 Agent 协作中的一个基本问题:共识寻求。通过 Agent 间的协商,研究了一个寻求共识的任务,其中每个 Agent 的状态是数字值,他们彼此协商达成共识值。发现,当没有明确指导应采用哪种策略时,LLM 驱动的 Agent 主要使用平均策略寻求共识,尽管偶尔也会使用其他策略。此外,分析了 Agent 数量、Agent 个性和网络拓扑对协商过程的影响。研究结果为理解 LLM 驱动的多 Agent 系统在解决更复杂任务方面的行为奠定了基础。除此之外,将 LLM 驱动的共识寻求应用于多机器人聚合任务,展示了 LLM 驱动的 Agent 在多机器人协作任务中实现零次规划的潜力。项目网址: westlakeintelligentrobotics.github.io/ConsensusLLM/。
Oct, 2023
通过多模型协同合作策略,模拟学术同行评审过程的多个代理人独立构建解决方案,相互审查并分配评审置信度,最终通过反复修订得到优于现有方法的结果,在多个推理任务中展示出卓越的准确性,并在数学推理中体现了对评审置信度整合的有效性,为模仿人类的多代理协同过程提供了有前途的方向。
Nov, 2023
评估模型网络在对抗影响下通过辩论进行合作时的行为,探索推理时间方法生成更令人信服的论点,并评估基于提示的缓解作为一种防御策略的潜力。
Jun, 2024
该论文介绍了一种新方法,即通过多个语言模型实例的反复辩论和推理过程,以达成一个共同的最终答案,从而改善语言响应的表现,特别是在数学和策略推理方面,改善了已有模型中一些常见问题,如虚假答案和幻觉现象,并有望显著提高大型语言模型的性能和开拓语言生成和理解领域。
May, 2023
通过研究多智能体协作中增加智能体的性能以及神经扩展定律,本文提出了多智能体协作网络(MacNet)作为一种组织智能体并通过拓扑排序优化其交互推理的方法,实验证明 MacNet 在各种网络拓扑中表现优异,并且支持超过一千个智能体之间的协作;此外,还观察到拓扑结构类似小世界性质时协作效果更好,并提出协作扩展定律,表明协作性能随着智能体数量的增加而服从逻辑增长模式,且协作效果较神经扩展更早地出现。
Jun, 2024
多代理辩论通过稀疏通信拓扑可以在大大降低计算成本的同时实现相当或更高的性能,扩展至多模态推理和对齐标注任务,强调了通信连通性对于增强 “心智集合体” 方法的效率和有效性的重要性。
Jun, 2024
准确模拟人的观点动态对于理解各种社会现象至关重要,包括极化和误信息传播。我们提出了一种基于大型语言模型的人口多智能体模拟观点动态的新方法。我们的发现揭示出语言模型智能体存在对准确信息的固有偏差,导致在科学现实中产生共识。然而,该偏差限制了模拟对气候变化等问题持有抵制观点的个体。在通过启动工程引入确认偏见后,我们观察到观点分裂的情况与现有的多智能体研究一致。这些见解突显了在该领域中大型语言模型智能体的前景和局限,并提出了未来发展路径:通过与真实世界的话语相结合,完善语言模型,以更好地模拟人类信念的演变。
Nov, 2023
通过将大型语言模型(LLMs)组织成以社区为基础的结构,该论文介绍了一种变革性方法,旨在增强 LLMs 的集体智能和问题解决能力。本文研究了不同的组织模型 - 分层、扁平、动态和联邦,每种模型都具有协作人工智能系统的独特优势和挑战。在这些结构化社区中,LLMs 被设计为专门从事不同的认知任务,采用直接通信、投票系统和基于市场的方法等先进的交互机制,并动态调整其治理结构以满足不断变化的需求。这种社区的实施对于提高人工智能的问题解决能力具有重大潜力,因此有必要深入研究其伦理考虑、管理策略和可扩展性。本文旨在为未来研究奠定基础,主张在人工智能研究和应用中从孤立到协同的运行框架进行范式转变。
May, 2024
我们的研究分析了标准网络结构和真实世界网络的行为,以确定多个大型语言模型在人类社交动态中是否与人类社交动态一致。我们探讨了各种社交网络原则,包括微观层面的概念(如优先连接、三元闭合和同质性),以及宏观层面的概念,如社群结构和小世界现象。我们的研究结果表明,当给定网络结构并询问 LLMs 关于网络形成的偏好时,LLMs 展现了所有这些原则。此外,我们还研究了基于真实世界网络的 LLMs 决策,以比较这些原则的优势。我们的结果表明,三元闭合和同质性比优先连接具有更强的影响力,并且 LLMs 在网络形成预测任务中远远超出随机猜测。总体而言,我们的研究通过揭示 LLMs 的网络形成行为,并探索它们对社交动态和规范的影响,为开发具有社交意识的 LLMs 做出了贡献。
Feb, 2024
LLM-MAS 利用 iAgents 和 InfoNav 机制在信息不对称的情况下实现任务解决,同时引入 InformativeBench 评估 LLM 代理人的能力,展示了在社交网络中协作完成任务的实验结果。
Jun, 2024