学习战略性讨论:一项关于狼人杀的案例研究
我们提出了一个无需调整参数的框架,利用过去的沟通和经验改进大型语言模型在沟通游戏中的表现,通过在狼人游戏中的实证研究,证明该框架可以有效地进行游戏,而且在实验中产生了策略性行为,显示出在沟通游戏和相关领域中让大型语言模型参与的前景。
Sep, 2023
基于强化学习的大语言模型(LLMs)和策略性语言智能体,通过使用 LLM 推理潜在欺诈行为和生成策略多样化动作的候选集,结合强化学习策略进行决策训练,取得了多样的突现策略,战胜其他 LLM 智能体并对抗人类对手在狼人游戏中保持强大。
Oct, 2023
本文介绍了使用预训练语言模型构建一个价值网络,并在此基础上开发出一个 AI 代理系统 Deep Wolf 来玩 Werewolf 游戏的方法和性能评估结果,其表现可以和人类玩家竞争,这表明当前的语言模型有能力在对话中怀疑他人的话语,撒谎或者检测谎言。
Feb, 2023
在信息不对称的情况下,开发能够制定策略并与人类合作的自主代理人是具有挑战性的,需要有效的自然语言交流。我们引入了一个共享控制游戏,两个玩家轮流共同控制一个令牌,以在不完整信息下实现共同目标。我们对一个自主代理人在此游戏中与另一位玩家(人类)的政策综合问题进行了数学建模。为了解决这个问题,我们提出了一种基于通信的方法,包括一个语言模块和一个规划模块。语言模块将自然语言消息与定义玩家意图的有限标志集之间进行翻译。规划模块利用这些标志,使用我们提出的基于不对称信息集的蒙特卡洛树搜索与标志交换算法计算策略。我们使用《夜间侏儒》作为基础的测试场景进行了这种方法的有效性评估,该场景是一个搜索和找到迷宫棋盘游戏。人类主体实验的结果表明,通过交流,玩家之间的信息鸿沟变小,合作效率提高,并减少回合数。
May, 2024
在线游戏中玩家互动和谈判策略对游戏结果的预测有重要作用,通过语言建模可以相对准确地预测谈判策略,但需要更多因素来预测短期结果,对于长期结果,如基于先前谈判历史的玩家成功的预测中,它们在考虑图感知的强化学习方法中起着关键作用。
Nov, 2023
本文提出了一种创新的框架,将大型语言模型(LLMs)与外部思考器模块相结合,以增强基于 LLM 的代理机构的推理能力。该框架形成了一个推理层次结构,其中 LLMs 处理直觉性的 System-1 任务,而思考器专注于需要复杂逻辑分析和领域特定知识的认知 System-2 任务。实验证明了该框架在演绎推理、语音生成和在线游戏评估方面的有效性。此外,我们通过与思考器集成来调优 6B LLM,以超越 GPT4。本文还贡献了迄今为止最大的社交推理游戏数据集。
Feb, 2024
基于狼人游戏的模拟平台,评估大型语言模型的本领领导力,并开发了两个新的度量标准,分别衡量意见领袖的可信度和对他人决策的影响力。结果表明,狼人游戏适合评估大型语言模型的意见领袖能力。
Apr, 2024
本文介绍了第一个模拟说服行为的多模态数据集,并使用对话背景和视觉信号提供了广泛实验证明,展示了说服策略预测的益处和语言模型对说服建模的泛化能力。
Dec, 2022
本文提出了一个框架,利用神经消息编码器来学习多智能体强化学习中的通信策略,包括消息传输时机、消息内容以及如何保留消息信息。模拟实际的无线网络环境下,与现有技术相比,该框架在游戏性能、收敛速度和通信效率方面都有显著提高。
Sep, 2022
我们在非完全信息博弈和具有多个狼人的进化博弈的框架中探讨了鸡尾酒派对效应引起的信息干扰状态。我们通过数学建模和分析,研究了每种策略选择的收益和进化稳定策略(ESS)的形成过程对假新闻污染风险的影响,前提是假新闻的污染风险在重复困境中是随机分配的。我们将详细介绍计算过程,从收益矩阵的构建开始,使用复制方程对进化动力学进行建模,并确定 ESS。此外,我们将进行数值模拟,观察系统在不同初始条件和参数设置下的行为,以更好地理解假新闻传播对策略演化的影响。这项研究将为当代社会关于信息真实性的复杂问题提供理论洞察,并扩展进化博弈理论的应用范围。
Feb, 2024