关注驱动推理:释放大型语言模型的潜力
最近大型语言模型(LLMs)因其执行复杂的推理任务的能力而引起了相当大的关注,但是大部分现有的增强这种能力的方法都过于依赖数据驱动的方法,而忽视了模型推理能力的结构方面。在我们的研究中,我们发现 LLMs 能够很好地处理个别的推理步骤,却在整个推理链上保持一致性方面遇到困难。为了解决这个问题,我们在每个推理步骤的开始引入了 “规划标记”,作为模型的指南。然后,这些标记嵌入与模型的其余参数一起进行微调。我们的方法所需的可训练参数增加微不足道(仅占总参数的 0.001%),可以通过完全微调或更加参数高效的方案来实施。我们通过将其应用于三种不同的 LLMs,并对三个数学问题数据集进行了评估,展示了我们方法的有效性,相对于原始的链式思维微调基准,取得了显著的准确性提升。
Oct, 2023
该研究介绍了一个假设检验框架,用于评估大型语言模型(LLMs)是否具有真正的推理能力,还是主要依赖于令牌偏差。我们超越准确性的评估,旨在调查 LLMs 在解决逻辑推理任务时的令牌偏差。具体而言,我们开发了精心控制的合成数据集,其中包括合取谬误和演绎问题。我们的框架概述了一系列假设,其中令牌偏差很容易被识别,所有零假设均假设 LLMs 具有真正的推理能力。本研究的发现以统计保证表明,多数 LLMs 在逻辑推理方面仍然有困难。尽管它们在经典问题上表现出色,但它们的成功主要依赖于识别带有强烈令牌偏差的表面模式,因此引发了对其实际推理和泛化能力的担忧。
Jun, 2024
大型语言模型在推理任务中表现出色,但是它们的推理能力深度尚不确定。本文通过综述超越任务准确性的研究,深入探讨模型的推理过程,并调查评估语言模型推理行为的方法,发现其依赖于训练数据的表面模式和相关性,而非真正的推理能力。同时,我们指出需要进一步研究人类推理与语言模型推理之间的关键差异。通过此综述,我们旨在揭示大型语言模型内部复杂的推理过程。
Apr, 2024
通过对大型语言模型的研究,我们发现它们在逻辑推理方面存在缺陷,导致其在任务解决中产生反事实的答案。为了解决这个问题,我们提出了多种策略,赋予大型语言模型逻辑推理能力,从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析,验证了通过逻辑训练大型语言模型的有效性和必要性,并为将来的工作提供了启示。
Oct, 2023
本篇论文主要介绍了如何通过自监督后训练和上下文学习来增加逻辑知识,从而提高语言模型的逻辑推理能力,取得了比现有基线更好的效果。
May, 2023
本文综述了大型语言模型在推理方面的最新研究,包括提高它们的推理能力的方法、评估它们的推理能力的基准和方法,以及这一领域之前研究的发现和意义,旨在激发有意义的讨论和未来的研究。
Dec, 2022
本研究探讨了多语言语言模型(MultiLMs)在针对不同语言推理时,是否能够将逻辑推理能力转移到其他语言。通过在两种方案中评估 MultiLMs 的跨语言推理能力,我们发现在单语言设置下,MultiLMs 可以在语言之间传递推理能力,但在混合代码推理的情况下,它们很难传递推理能力。基于此观察,我们提出了一种新颖的注意机制,利用专门的参数集在混合代码序列中鼓励跨语言注意力,从而在 RuleTaker 和 LeapOfThought 数据集上分别将推理性能提高了 14% 和 4%。
Oct, 2023
LLMs 与多语言模型中的外部语言理解能力的融合方法 MindMerger 可提高多语言推理性能。在多个语言推理数据集上的实验证明,MindMerger 相较于其他方法具有更好的性能,尤其对于资源稀缺的语言。在 MGSM 数据集上,不更新 LLMs 的参数,平均准确率分别提升了 6.7% 和 8.0%,涵盖所有语言和资源稀缺的语言。
May, 2024
大型语言模型在生成个性化内容和促进交互对话方面表现出色,但在推理能力和提供可解释性输出方面仍有待提高。本研究深入探讨了大型语言模型的推理能力,突出了当前挑战和限制,阻碍了它们在复杂推理场景中的有效性。
Feb, 2024