自主对抗性语言游戏增强 LLM 推理能力
大语言模型在回答清楚的问题方面非常有效,但面对模糊查询时会表现不可预测且产生错误的输出,因此需要开发能够提出澄清问题来解决模糊性的智能代理。本文提供了一个评估框架,通过问法官一系列问题来推断一个未知的实体并评估语言模型的会话推理和规划能力,并对不同的语言模型进行系统评估。结果发现,像 GPT-4 这样的强大语言模型在这个任务上远远超过人类玩家。同时我们还使用行为克隆(BC)来研究较弱模型是否能够模仿强模型并在只使用强模型的演示数据或领域的情况下进行泛化。最后,我们建议使用强化学习来通过游戏过程来提高 Vicuna 模型的推理和规划能力,从而显著提高性能。希望这个问题能为如何训练自主代理在模糊环境中更智能地行为提供见解。
Oct, 2023
通过博弈论任务以及与其他模型的比赛来评估大型语言模型在竞争环境中的推理能力,研究发现大型语言模型在游戏场景中的表现因任务类型而异,然而,开源的模型相较于商业模型在复杂游戏中表现不佳。
Feb, 2024
该论文介绍了一种新方法,即通过多个语言模型实例的反复辩论和推理过程,以达成一个共同的最终答案,从而改善语言响应的表现,特别是在数学和策略推理方面,改善了已有模型中一些常见问题,如虚假答案和幻觉现象,并有望显著提高大型语言模型的性能和开拓语言生成和理解领域。
May, 2023
本文提出了一种创新的框架,将大型语言模型(LLMs)与外部思考器模块相结合,以增强基于 LLM 的代理机构的推理能力。该框架形成了一个推理层次结构,其中 LLMs 处理直觉性的 System-1 任务,而思考器专注于需要复杂逻辑分析和领域特定知识的认知 System-2 任务。实验证明了该框架在演绎推理、语音生成和在线游戏评估方面的有效性。此外,我们通过与思考器集成来调优 6B LLM,以超越 GPT4。本文还贡献了迄今为止最大的社交推理游戏数据集。
Feb, 2024
本文探究将强化学习代理人和大规模语言模型相结合,实现在复杂环境中的推理和泛化的能力,通过预训练语言模型作为规划器,简单的合成体智能作为行动器,和与规划器通信的汇报器这三部分,展示这个系统在零 - shot 泛化的任务中的表现,并且讨论了其失败情况以及组件使用增强学习的培训任务。
Feb, 2023
本文综述了大规模语言模型(LLMs)在战略推理中的当前状况和机遇,战略推理是一种复杂的推理形式,需要理解和预测多智能体环境中对手行为并相应调整策略。本文探讨了与 LLMs 相关的战略推理的范围、应用、方法论和评估指标,强调了该领域蓬勃发展和跨学科方法对决策性能的增强。该文旨在系统梳理和澄清有关此主题的分散文献,提供系统综述,凸显战略推理作为一种关键认知能力的重要性,并提供未来研究方向和潜在改进的见解。
Apr, 2024
通过对归纳逻辑编程基准测试的深入评估,本研究表明与模型规模较小的神经程序归纳系统相比,最新的大型语言模型在推理能力方面表现较差,无论是使用自然语言提示还是真值矩阵提示,它们在性能和泛化方面都表现较低。
Jan, 2024
大型语言模型(LLMs)在解决程序推理问题方面显示出了出色的能力。通过引入 “reasoning in the wild” 任务并使用一个包含详细解决方案的大型策略引导轨迹数据集,我们在更真实的场景中评估了 LLMs 的推理能力,揭示了其存在的关键限制。
Jun, 2024