LLM 引导的归纳推理在解决组合问题上的应用
通过对归纳逻辑编程基准测试的深入评估,本研究表明与模型规模较小的神经程序归纳系统相比,最新的大型语言模型在推理能力方面表现较差,无论是使用自然语言提示还是真值矩阵提示,它们在性能和泛化方面都表现较低。
Jan, 2024
通过对大型语言模型的研究,我们发现它们在逻辑推理方面存在缺陷,导致其在任务解决中产生反事实的答案。为了解决这个问题,我们提出了多种策略,赋予大型语言模型逻辑推理能力,从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析,验证了通过逻辑训练大型语言模型的有效性和必要性,并为将来的工作提供了启示。
Oct, 2023
通过离线强化学习将大型语言模型(LLM)的分解能力融入紧凑模型,我们利用 LLM 能力的进步提供反馈并生成专门的任务特定数据集来训练紧凑模型,该研究的主要贡献是开发了一个 AI 生成的数据集和建立了基线,强调了紧凑模型在复制复杂问题解决能力方面的潜力。
Feb, 2024
本文分析了当前基础 LLM (ChatGPT) 与专门的预训练模型 (REBEL) 的联合实体和关系提取应用,以可持续发展文本为案例进行了多个实验,结果表明,使用先进的 LLM 模型可以提高从非结构化文本创建知识图谱的过程的准确性,并探索了使用基础 LLM 模型自动创建本体论的潜力,取得更相关和准确的知识图谱。
May, 2023
大型语言模型(LLMs)在解决程序推理问题方面显示出了出色的能力。通过引入 “reasoning in the wild” 任务并使用一个包含详细解决方案的大型策略引导轨迹数据集,我们在更真实的场景中评估了 LLMs 的推理能力,揭示了其存在的关键限制。
Jun, 2024
本文对大型语言模型在逻辑推理方面进行了全面评估,提出了一种基于选择和推理的框架,可以在不进行微调的情况下改进性能,并伴随着因果自然语言推理过程的答案。
May, 2022
通过将复杂的现实世界问题分解成图形,将每个问题表示为一个节点,并使用具有解决问题所需背景知识的父节点来研究大型语言模型(LLMs)如何利用知识进行推理。使用分层图形,我们量化了 LLMs 在较简单子问题与复杂问题上性能的前向差异和后向差异。此研究拓展了我们对 LLM 推理的理解,并提出了改进它们解决问题能力的方法。
Jun, 2024
通过使用透明的中间状态进行复合会带来可解释性和安全性的好处,但可能需要工作流程支持和基础设施来保持竞争力,为此我们描述了一种人在循环中使用的对于开发和完善复合 LM 程序的工作流程,并开发了一个可视化 LM 程序执行跟踪的开源工具 - ICE,通过三个真实世界的案例将这一工作流程应用于 LM 程序,并比非组合基线提高了 LM 程序的准确性 - 描述随机对照试验中使用的安慰剂(25%到 65%),评估参与者遵守医疗干预(53%到 70%)以及在 Qasper 数据集上回答 NLP 问题(38%到 69%)。
Jan, 2023
利用分布式网络的 “归纳学习” 方法可以提高小型语言模型的推理能力,从而弥补其依赖统计模式容易产生错误答案的局限性,并可能使其逼近高参数模型在逻辑应用上所取得的水平,从而弥合人类和大型语言模型在各个领域之间的逻辑差距。
Feb, 2024
大型语言模型(LLMs)的发展促使人们对其推理和问题解决能力产生了更大的兴趣。本研究调查了几种 LLMs 是否能够解决认知科学文献中一种经典类型的演绎推理问题。研究发现,这些被测试的 LLMs 在传统形式上解决这些问题的能力有限。我们进行了后续实验,探究了更改展示格式和内容是否能改善模型性能。尽管我们发现了条件之间的绩效差异,但总体性能并未提高。此外,我们还发现性能与展示格式和内容以出人意料的方式相互作用,与人类表现有所不同。总的来说,我们的结果表明 LLMs 具有独特的推理偏见,其只能部分预测人类的推理表现。
Sep, 2023