使用强化学习的语言智能体在狼人杀游戏中进行战略性对战
本文提出了一种创新的框架,将大型语言模型(LLMs)与外部思考器模块相结合,以增强基于 LLM 的代理机构的推理能力。该框架形成了一个推理层次结构,其中 LLMs 处理直觉性的 System-1 任务,而思考器专注于需要复杂逻辑分析和领域特定知识的认知 System-2 任务。实验证明了该框架在演绎推理、语音生成和在线游戏评估方面的有效性。此外,我们通过与思考器集成来调优 6B LLM,以超越 GPT4。本文还贡献了迄今为止最大的社交推理游戏数据集。
Feb, 2024
我们提出了一个无需调整参数的框架,利用过去的沟通和经验改进大型语言模型在沟通游戏中的表现,通过在狼人游戏中的实证研究,证明该框架可以有效地进行游戏,而且在实验中产生了策略性行为,显示出在沟通游戏和相关领域中让大型语言模型参与的前景。
Sep, 2023
本文介绍了使用预训练语言模型构建一个价值网络,并在此基础上开发出一个 AI 代理系统 Deep Wolf 来玩 Werewolf 游戏的方法和性能评估结果,其表现可以和人类玩家竞争,这表明当前的语言模型有能力在对话中怀疑他人的话语,撒谎或者检测谎言。
Feb, 2023
基于狼人游戏的模拟平台,评估大型语言模型的本领领导力,并开发了两个新的度量标准,分别衡量意见领袖的可信度和对他人决策的影响力。结果表明,狼人游戏适合评估大型语言模型的意见领袖能力。
Apr, 2024
近年来,大型语言模型在问题回答、算术问题解决和诗歌创作等各种任务中展示了强大的能力。尽管关于以大型语言模型为代理的研究表明它可以应用于强化学习并取得不错的结果,但将基于大型语言模型的强化学习扩展到多智能体系统并不容易,因为许多方面,如智能体之间的协调和通信,在单智能体的强化学习框架中没有得到考虑。为了激发更多关于基于大型语言模型的多智能体强化学习的研究,本文调查了现有的基于大型语言模型的单智能体和多智能体强化学习框架,并提供了未来研究的潜在方向。特别关注多智能体共同目标合作任务和它们之间的通信,还考虑了语言组件在框架中实现的人机交互场景。
May, 2024
通过在单一统一的机器学习范式中正式定义大型语言模型(LLM)的训练过程,包括预训练、监督微调和强化学习与人类反馈,我们可以获得推进 LLM 技术的重要见解。本文勾勒出 LLM 训练方法与两人博弈中代理人发展所采用的战略之间的相似之处,从博弈论、强化学习和多智能体系统的角度研究。我们提出了一种用基于语言游戏中代理人学习的方式重新构思 LLM 学习过程的框架。这个框架揭示了 LLM 发展中成功和挑战的创新视角,为解决对齐问题等战略考虑提供了新的理解。此外,我们的两人博弈方法为 LLM 训练提供了新颖的数据准备和机器学习技术。
Feb, 2024
通过研究 One Night Ultimate Werewolf (ONUW) 游戏中的讨论策略对玩家效用的影响,本研究发现讨论对于改变玩家信念和提升讨论策略的重要性,并提出了基于强化学习的讨论策略训练框架,通过实验证明了该框架的效果和泛化能力。
May, 2024
利用 LLMs 在复杂的电脑游戏环境中赋予游戏智能体人类般的决策能力,以推进人工智能 (AGI) 的发展,并提供了 LLM 基础的游戏智能体的综述,包括感知、记忆、思考、角色扮演、行动和学习的六个关键组成部分,调研了六种游戏类型的现有代表性 LLM 基础游戏智能体,并展望了未来的研究和发展方向。
Apr, 2024
大语言模型是否能够忠实地模拟决策智能体的智能能力,本研究通过实证方法首次探讨了大语言模型在通过推理构建决策智能体的心智模型方面的能力,并提供了关于其对强化学习智能体行为的解释性约束方面的新见解。
Jun, 2024