语言模型的战略推理

May, 2023

Strategic Reasoning with Language Models

Kanishk Gandhi, Dorsa Sadigh, Noah D. Goodman

TL;DR使用预训练的大型语言模型，并通过有限的示例进行引导，使智能代理能够进行战略推理和协商，而不需要任何额外的训练或微调。

Abstract

strategic reasoning enables agents to cooperate, communicate, and compete with other agents in diverse situations. Existing approaches to

strategic reasoning agents large language models few-shot learning game theory

发现论文，激发创造

LLM 作为主脑：大型语言模型的战略推理综述

本文综述了大规模语言模型（LLMs）在战略推理中的当前状况和机遇，战略推理是一种复杂的推理形式，需要理解和预测多智能体环境中对手行为并相应调整策略。本文探讨了与 LLMs 相关的战略推理的范围、应用、方法论和评估指标，强调了该领域蓬勃发展和跨学科方法对决策性能的增强。该文旨在系统梳理和澄清有关此主题的分散文献，提供系统综述，凸显战略推理作为一种关键认知能力的重要性，并提供未来研究方向和潜在改进的见解。

Apr, 2024

GameBench：评估 LLM 代理的战略推理能力

使用大型语言模型在游戏中评估策略推理能力的跨领域基准 (GameBench) 显示，虽然大多数测试模型并不及人类水平，但对策略推理能力的两种框架（CoT 和 RAP）能够提高分数。

Jun, 2024

GTBench: 揭示 LLMs 的战略推理限制：基于博弈论评估

通过博弈论任务以及与其他模型的比赛来评估大型语言模型在竞争环境中的推理能力，研究发现大型语言模型在游戏场景中的表现因任务类型而异，然而，开源的模型相较于商业模型在复杂游戏中表现不佳。

Feb, 2024

StrategyLLM：作为问题解决的策略生成器，执行器，优化器和评估器的大型语言模型

综合利用 LLMs 能力的 StrategyLLM 框架提出，通过制定通用问题解决策略，以及利用这些策略产生一致的解决方案来提高推理方法的泛化性和一致性。实验证明，StrategyLLM 在数学推理、常识推理、算法推理和符号推理等 4 个具有挑战性的任务上，比需要人工注释解决方案的同类基准模型 CoT-SC 表现更好。

Nov, 2023

大型语言模型是神经符号推理器

该论文研究了大型语言模型作为符号推理器的潜在应用，提出了一个针对符号挑战和实现游戏目标的 LLM 代理，并通过实验结果证明了其能显著增强 LLMs 作为符号推理自动化代理的能力，对涉及符号任务的基于文本的游戏取得了 88% 的平均性能。

Jan, 2024

以字符串形式的状态作为策略：通过博弈理论求解器驾驭语言模型

对话和游戏理论的结合，使用大型语言模型提供了生成对话和构建游戏理论解决概念的能力。

Jan, 2024

大型语言模型在混合策略纳什均衡游戏中的应用

本研究旨在研究博弈论和生成人工智能的交叉领域，聚焦于大型语言模型在找到混合策略 Nash 均衡的游戏中的能力，发现了大型语言模型在运行代码和提供特定提示的情况下性能显著提高，但也揭示了在难以推断游戏的随机化策略时，大型语言模型的限制性。该论文致力于为博弈论和生成人工智能的交叉领域增添研究成果，同时提供有关大型语言模型优势和劣势的有价值洞察，并强调了进一步研究的必要性以克服大型语言模型的局限，尤其是在处理稍复杂情境时，以发挥其全部潜力。

Jun, 2024

对话式语言模型的推理即世界模型的规划

本文介绍了基于 Monte Carlo 搜索算法的新型大语言模型推理框架 RAP，利用其上的世界模型进行计划生成和复杂推理。从多个任务测试中，RAP 在效率和准确率上都超过了 Chain-of-Thought 等现有方案。

May, 2023

LLM-Deliberation：用互动多智能体协商游戏评估 LLMs

使用可评分的协商游戏作为新的评估框架，系统化的零样本链式思考提示能够展示大型语言模型在协商中的能力和绩效差距。

Sep, 2023

通过多智能体辩论提高语言模型的事实性和推理能力

该论文介绍了一种新方法，即通过多个语言模型实例的反复辩论和推理过程，以达成一个共同的最终答案，从而改善语言响应的表现，特别是在数学和策略推理方面，改善了已有模型中一些常见问题，如虚假答案和幻觉现象，并有望显著提高大型语言模型的性能和开拓语言生成和理解领域。

May, 2023