大型语言模型能否玩游戏?一种自我对弈方法的案例研究
AlphaLLM 通过将 Monte Carlo Tree Search (MCTS) 与 LLMs 集成,建立了一个自我改进循环,从而提高了 LLMs 的能力,同时避免了其他额外的注释,实验结果表明 AlphaLLM 显著提高了 LLMs 的性能。
Apr, 2024
借鉴 AlphaZero 的树搜索框架,通过学习价值函数来引导大型语言模型(LLMs)的解码能力,并在推理和训练中进行译码指导,有效地提升推理能力、规划和强化学习任务的对齐。
Sep, 2023
通过 Game Theory 基于 GAMA-Bench 框架评估 LLMs 的决策能力,研究发现 GPT-3.5 在鲁棒性方面表现出色,但其概括能力相对有限,通过 Chain-of-Thought 等方法可以提高其性能;此外,评估发现 GPT-4 在 GAMA-Bench 上表现最好,得分为 72.5,而 GPT-3.5 的不断更新也标志着模型智能的显着提高。
Mar, 2024
通过使用蒙特卡洛树搜索和轻能量函数,我们对经过微调的大型语言模型进行了改进,提高了数学推理的正确性和步骤,从而在不需要进一步微调或 RLHF 对齐的情况下,将经过微调的模型的一次通过率显著提高。
Sep, 2023
利用大型语言模型作为替代人类参与游戏实验的工具来进行社会科学研究时,与人类行为高度一致的特点使其具备潜力,然而,尽管已经有大量关于大型语言模型与博弈论结合的实证研究,但大型语言模型在博弈论中的能力边界仍不清楚,因此我们试图在本研究中系统分析大型语言模型在博弈论背景下的表现,结果表明即使目前最先进的大型语言模型(GPT-4)与人类在博弈论方面存在显著差异,因此在社会科学领域引入大型语言模型进行游戏实验时应更加谨慎。
Dec, 2023
通过增强大型语言模型的推理能力,我们介绍了一种受 AlphaZero 成功策略启发的增量式偏好学习方法。我们利用蒙特卡洛树搜索 (MCTS) 迭代收集偏好数据,将实例级奖励分解为更精细的步骤级信号。为了增强中间步骤的一致性,我们结合了结果验证和逐步自我评估,不断更新新生成数据的质量评估。该算法采用直接偏好优化 (DPO) 使用这些新生成的步骤级偏好数据更新语言模型策略。对各种算术和常识推理任务进行的广泛评估表明,我们的方法在准确性方面相比现有模型取得了显著的性能提升。此外,我们的研究还深入探讨了训练和推理计算的权衡关系,为我们的方法如何有效地提高性能提供了见解。
May, 2024
本研究利用自省式提示 (Introspective Tips) 促进了大型语言模型 (Large Language Models) 的自我优化,从学习过程中的经验、集成专家演示和跨越多种游戏等三种方面提高决策性能,却不调整 LMM 参数,结论在 TextWorld 超过 100 个游戏中都表现出优异的结果。
May, 2023
大型语言模型在高级提示技术方面具有出色的推理能力,但在需要探索、战略前瞻和序贯决策的任务上存在不足。最近的研究通过利用外部程序定义搜索逻辑,使 LLMs 能够执行被动树搜索以解决更具挑战性的推理任务。我们提出了一种名为 LLM 的自主树搜索能力的新概念,它可以自动生成包含正确答案的搜索轨迹的响应。在 4 个益智游戏上的实验表明,我们的方法可以取得巨大的改进。与先前的方法相比,ATS-BFS 方法在准确性上提高了 33%,而 GPT API 成本降低了 65.6% 或 47.7%。此外,我们使用 ATS 提示方法收集数据并对 LLaMA 进行微调,在 LLaMA2-7B 和 LLaMA2-13B 上相对于 CoT-tuned LLaMAs 提高了 40.6% 和 38.5%。
Oct, 2023