大型语言模型在数学推理方面研究了系统组合性,通过引入精心设计的逻辑漏洞陷阱构建了一个新的数据集 MathTrap,发现虽然大型语言模型具备所需知识的两个组成部分,但它们不会自发地组合起来处理这些新问题,通过自然语言提示、少示范演示和微调等多种方法可以减轻这种缺陷,但系统的组合性仍然是大型语言模型面临的一个未解决挑战。
May, 2024
我们提出了一种新的数据生成流水线 ConMe,利用视觉 - 语言模型 (VLMs) 产生具有挑战性的复合推理问题,并通过与同类模型协同对话揭示其弱点,建立了一个稳健的复合推理基准,验证表明我们的基准相对于以前的基准提高了高达 33% 的复合推理性能。
Jun, 2024
通过翻译 MCWQ 数据集,我们证明不同语言具有不同的组合泛化能力,同时多语种模型仍然难以实现跨语言组成泛化。
Jun, 2023
通过对归纳逻辑编程基准测试的深入评估,本研究表明与模型规模较小的神经程序归纳系统相比,最新的大型语言模型在推理能力方面表现较差,无论是使用自然语言提示还是真值矩阵提示,它们在性能和泛化方面都表现较低。
Jan, 2024
通过对大型语言模型的研究,我们发现它们在逻辑推理方面存在缺陷,导致其在任务解决中产生反事实的答案。为了解决这个问题,我们提出了多种策略,赋予大型语言模型逻辑推理能力,从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析,验证了通过逻辑训练大型语言模型的有效性和必要性,并为将来的工作提供了启示。
Oct, 2023
大型语言模型在生成个性化内容和促进交互对话方面表现出色,但在推理能力和提供可解释性输出方面仍有待提高。本研究深入探讨了大型语言模型的推理能力,突出了当前挑战和限制,阻碍了它们在复杂推理场景中的有效性。
Feb, 2024
本研究提出了一种新的基准数据集和一种神经消息传递模型,该模型结合了关系归纳偏差,与传统循环神经网络方法相比,在联络推理和组合泛化方面性能优越。
Nov, 2018
使用递归解决方案和自动推理技术,REBEL 方法扩展了大型语言模型的能力,允许其在开放世界情境中进行深度推理任务和外部工具的使用。
Sep, 2023
大型语言模型在知识获取和统计推理方面取得了稳定进展,但在常识推理任务中仍存在局限性,纯统计学习难以应对其中的组合爆炸问题,更大并不总是更好,而且单纯追求统计改进只会加重正确答案与真正推理能力之间的危险混淆。
Apr, 2024
大型语言模型在形式化语言任务中取得了显著的成功,但目前的基准主要遵循 LLM 的预训练数据分布。本文探讨了 LLM 在一种特殊情况下的结构语义理解能力问题,提出了 ConvRe 基准,通过多项选择问答任务评估 LLM 确定关系和相关文本匹配的能力。实验结果表明,LLM 在该基准上仍存在挑战。