语言模型的战略推理
本文综述了大规模语言模型(LLMs)在战略推理中的当前状况和机遇,战略推理是一种复杂的推理形式,需要理解和预测多智能体环境中对手行为并相应调整策略。本文探讨了与 LLMs 相关的战略推理的范围、应用、方法论和评估指标,强调了该领域蓬勃发展和跨学科方法对决策性能的增强。该文旨在系统梳理和澄清有关此主题的分散文献,提供系统综述,凸显战略推理作为一种关键认知能力的重要性,并提供未来研究方向和潜在改进的见解。
Apr, 2024
使用大型语言模型在游戏中评估策略推理能力的跨领域基准 (GameBench) 显示,虽然大多数测试模型并不及人类水平,但对策略推理能力的两种框架(CoT 和 RAP)能够提高分数。
Jun, 2024
通过博弈论任务以及与其他模型的比赛来评估大型语言模型在竞争环境中的推理能力,研究发现大型语言模型在游戏场景中的表现因任务类型而异,然而,开源的模型相较于商业模型在复杂游戏中表现不佳。
Feb, 2024
综合利用 LLMs 能力的 StrategyLLM 框架提出,通过制定通用问题解决策略,以及利用这些策略产生一致的解决方案来提高推理方法的泛化性和一致性。实验证明,StrategyLLM 在数学推理、常识推理、算法推理和符号推理等 4 个具有挑战性的任务上,比需要人工注释解决方案的同类基准模型 CoT-SC 表现更好。
Nov, 2023
该论文研究了大型语言模型作为符号推理器的潜在应用,提出了一个针对符号挑战和实现游戏目标的 LLM 代理,并通过实验结果证明了其能显著增强 LLMs 作为符号推理自动化代理的能力,对涉及符号任务的基于文本的游戏取得了 88% 的平均性能。
Jan, 2024
本研究旨在研究博弈论和生成人工智能的交叉领域,聚焦于大型语言模型在找到混合策略 Nash 均衡的游戏中的能力,发现了大型语言模型在运行代码和提供特定提示的情况下性能显著提高,但也揭示了在难以推断游戏的随机化策略时,大型语言模型的限制性。该论文致力于为博弈论和生成人工智能的交叉领域增添研究成果,同时提供有关大型语言模型优势和劣势的有价值洞察,并强调了进一步研究的必要性以克服大型语言模型的局限,尤其是在处理稍复杂情境时,以发挥其全部潜力。
Jun, 2024
本文介绍了基于 Monte Carlo 搜索算法的新型大语言模型推理框架 RAP,利用其上的世界模型进行计划生成和复杂推理。从多个任务测试中,RAP 在效率和准确率上都超过了 Chain-of-Thought 等现有方案。
May, 2023
该论文介绍了一种新方法,即通过多个语言模型实例的反复辩论和推理过程,以达成一个共同的最终答案,从而改善语言响应的表现,特别是在数学和策略推理方面,改善了已有模型中一些常见问题,如虚假答案和幻觉现象,并有望显著提高大型语言模型的性能和开拓语言生成和理解领域。
May, 2023