大型语言模型能否玩游戏？一种自我对弈方法的案例研究

Mar, 2024

大型语言模型能否玩游戏？一种自我对弈方法的案例研究

Can Large Language Models Play Games? A Case Study of A Self-Play Approach

Hongyi Guo, Zhihan Liu, Yufeng Zhang, Zhaoran Wang

TL;DR结合蒙特卡洛树搜索和大型语言模型的创新方法可有效解决决策型游戏问题，提高大型语言模型的性能并处理蒙特卡洛树搜索无法应对的挑战。

Abstract

large language models (llms) harness extensive data from the Internet, storing a broad spectrum of prior knowledge. While llms have proven

large language models monte-carlo tree search decision-making deterministic turn-based zero-sum games llms

发现论文，激发创造

通过想象力、搜索和批评实现 LLM 的自我提升

AlphaLLM 通过将 Monte Carlo Tree Search (MCTS) 与 LLMs 集成，建立了一个自我改进循环，从而提高了 LLMs 的能力，同时避免了其他额外的注释，实验结果表明 AlphaLLM 显著提高了 LLMs 的性能。

Apr, 2024

类阿尔法零树搜索可引导大规模语言模型的解码和训练

借鉴 AlphaZero 的树搜索框架，通过学习价值函数来引导大型语言模型（LLMs）的解码能力，并在推理和训练中进行译码指导，有效地提升推理能力、规划和强化学习任务的对齐。

Sep, 2023

关于 LLMs 决策能力的探究：在多智能体环境中评估 LLMs 的游戏能力

通过 Game Theory 基于 GAMA-Bench 框架评估 LLMs 的决策能力，研究发现 GPT-3.5 在鲁棒性方面表现出色，但其概括能力相对有限，通过 Chain-of-Thought 等方法可以提高其性能；此外，评估发现 GPT-4 在 GAMA-Bench 上表现最好，得分为 72.5，而 GPT-3.5 的不断更新也标志着模型智能的显着提高。

Mar, 2024

无需训练仍可受益。运用能量函数引导的蒙特卡罗树搜索释放大语言模型的数学推理能力

通过使用蒙特卡洛树搜索和轻能量函数，我们对经过微调的大型语言模型进行了改进，提高了数学推理的正确性和步骤，从而在不需要进一步微调或 RLHF 对齐的情况下，将经过微调的模型的一次通过率显著提高。

Sep, 2023

大型语言模型能否作为博弈论中的理性参与者？一项系统分析

利用大型语言模型作为替代人类参与游戏实验的工具来进行社会科学研究时，与人类行为高度一致的特点使其具备潜力，然而，尽管已经有大量关于大型语言模型与博弈论结合的实证研究，但大型语言模型在博弈论中的能力边界仍不清楚，因此我们试图在本研究中系统分析大型语言模型在博弈论背景下的表现，结果表明即使目前最先进的大型语言模型（GPT-4）与人类在博弈论方面存在显著差异，因此在社会科学领域引入大型语言模型进行游戏实验时应更加谨慎。

Dec, 2023

LLM-Deliberation：用互动多智能体协商游戏评估 LLMs

使用可评分的协商游戏作为新的评估框架，系统化的零样本链式思考提示能够展示大型语言模型在协商中的能力和绩效差距。

Sep, 2023

蒙特卡洛树搜索通过迭代偏好学习提高推理能力

通过增强大型语言模型的推理能力，我们介绍了一种受 AlphaZero 成功策略启发的增量式偏好学习方法。我们利用蒙特卡洛树搜索 (MCTS) 迭代收集偏好数据，将实例级奖励分解为更精细的步骤级信号。为了增强中间步骤的一致性，我们结合了结果验证和逐步自我评估，不断更新新生成数据的质量评估。该算法采用直接偏好优化 (DPO) 使用这些新生成的步骤级偏好数据更新语言模型策略。对各种算术和常识推理任务进行的广泛评估表明，我们的方法在准确性方面相比现有模型取得了显著的性能提升。此外，我们的研究还深入探讨了训练和推理计算的权衡关系，为我们的方法如何有效地提高性能提供了见解。

May, 2024

使用大型语言模型进行反复游戏

使用行为博弈理论研究大型语言模型行为，结果显示它们在自我利益方面的表现非常出色，但在协调方面表现不佳，尤其表现出一些行为特征。

May, 2023

自省提示：用于上下文决策的大型语言模型

本研究利用自省式提示 (Introspective Tips) 促进了大型语言模型 (Large Language Models) 的自我优化，从学习过程中的经验、集成专家演示和跨越多种游戏等三种方面提高决策性能，却不调整 LMM 参数，结论在 TextWorld 超过 100 个游戏中都表现出优异的结果。

May, 2023

大型语言模型的自主树搜索能力

大型语言模型在高级提示技术方面具有出色的推理能力，但在需要探索、战略前瞻和序贯决策的任务上存在不足。最近的研究通过利用外部程序定义搜索逻辑，使 LLMs 能够执行被动树搜索以解决更具挑战性的推理任务。我们提出了一种名为 LLM 的自主树搜索能力的新概念，它可以自动生成包含正确答案的搜索轨迹的响应。在 4 个益智游戏上的实验表明，我们的方法可以取得巨大的改进。与先前的方法相比，ATS-BFS 方法在准确性上提高了 33％，而 GPT API 成本降低了 65.6% 或 47.7%。此外，我们使用 ATS 提示方法收集数据并对 LLaMA 进行微调，在 LLaMA2-7B 和 LLaMA2-13B 上相对于 CoT-tuned LLaMAs 提高了 40.6% 和 38.5%。

Oct, 2023