令牌经济中的推理:对 LLM 推理策略的预算感知评估
最近大型语言模型(LLMs)因其执行复杂的推理任务的能力而引起了相当大的关注,但是大部分现有的增强这种能力的方法都过于依赖数据驱动的方法,而忽视了模型推理能力的结构方面。在我们的研究中,我们发现 LLMs 能够很好地处理个别的推理步骤,却在整个推理链上保持一致性方面遇到困难。为了解决这个问题,我们在每个推理步骤的开始引入了 “规划标记”,作为模型的指南。然后,这些标记嵌入与模型的其余参数一起进行微调。我们的方法所需的可训练参数增加微不足道(仅占总参数的 0.001%),可以通过完全微调或更加参数高效的方案来实施。我们通过将其应用于三种不同的 LLMs,并对三个数学问题数据集进行了评估,展示了我们方法的有效性,相对于原始的链式思维微调基准,取得了显著的准确性提升。
Oct, 2023
使用大型语言模型在游戏中评估策略推理能力的跨领域基准 (GameBench) 显示,虽然大多数测试模型并不及人类水平,但对策略推理能力的两种框架(CoT 和 RAP)能够提高分数。
Jun, 2024
我们引入了一种新颖的评估范式来评估大型语言模型,这种范式挑战了它们进行元推理。该方法解决了现有的数学问题解决基准测试中存在的关键缺陷,传统上用于评估代理的认知能力。我们的范式将重点从以结果为导向的评估转向更综合的评估,能够有效区分模型之间的认知能力。例如,在我们的基准测试中,GPT-4 的性能比 GPT3-5 准确率高十倍。这种新范式的重要性在于它能够揭示当前基准测试(如 GSM8K)未能发现的语言模型的潜在认知缺陷,这是由于它们的饱和度和在不同推理能力之间缺乏有效区分。我们的综合分析包括来自开源和闭源社区的几个最先进的数学模型,揭示了它们的训练和评估方法的根本缺陷。本文不仅主张在评估 LLMs 时进行范式转变,而且对于关于人工通用智能(AGI)的持续讨论也作出了贡献。通过推广类似于我们的元推理评估方法的采用,我们旨在促进对 LLM 真正认知能力的更准确评估。
Dec, 2023
该论文介绍了 AutoRace 和 LLM Reasoners,分别用于评估和实现不同的推理方法,以解决大型语言模型在生成推理链时所面临的挑战。
Apr, 2024
大型语言模型在推理任务中表现出色,但是它们的推理能力深度尚不确定。本文通过综述超越任务准确性的研究,深入探讨模型的推理过程,并调查评估语言模型推理行为的方法,发现其依赖于训练数据的表面模式和相关性,而非真正的推理能力。同时,我们指出需要进一步研究人类推理与语言模型推理之间的关键差异。通过此综述,我们旨在揭示大型语言模型内部复杂的推理过程。
Apr, 2024
本文提出了一个名为 REval 的框架,用于评估代码 LLM 的代码推理能力和一致性,通过对现有的代码基准进行改进,在大规模的实证研究中发现大多数 LLMs 在运行时行为推理和增量一致性评估方面表现不尽人意,强调了提高代码 LLM 的代码推理能力的迫切需求。
Mar, 2024
通过博弈论任务以及与其他模型的比赛来评估大型语言模型在竞争环境中的推理能力,研究发现大型语言模型在游戏场景中的表现因任务类型而异,然而,开源的模型相较于商业模型在复杂游戏中表现不佳。
Feb, 2024
综合利用 LLMs 能力的 StrategyLLM 框架提出,通过制定通用问题解决策略,以及利用这些策略产生一致的解决方案来提高推理方法的泛化性和一致性。实验证明,StrategyLLM 在数学推理、常识推理、算法推理和符号推理等 4 个具有挑战性的任务上,比需要人工注释解决方案的同类基准模型 CoT-SC 表现更好。
Nov, 2023
利用大型语言模型(LLMs)在多项任务中取得的显著表现带来了在实际环境中利用它们的许多机遇和挑战。为了实现 LLMs 的实际采用,多智能体系统在使用现有专有数据和模型应对复杂现实任务的企业平台的更大背景下,具有增强、整合和协调 LLMs 的巨大潜力。本文提出了 “推理能力” 概念作为统一准则,以实现在优化过程中整合约束并建立系统内不同组件之间的联系,从而实现更全面、综合的评估方法。我们提出了推理能力的正式定义,并说明其在识别系统每个组件的限制方面的实用性。然后,我们讨论了如何通过自反思的过程来解决推理中的缺陷,并增强整个系统的一致性,其中利用人的反馈来缓解推理不足问题。
Feb, 2024