REFINER: 在中间表示上进行推理反馈
使用迭代性的假设修正技术,通过三步骤的提议、选择和修正来研究语言模型在归纳推理任务中的能力,并发现其在产生假设和筛选规则方面表现出色,但在识别可信规则和应用提议规则方面存在差距,揭示了语言模型在归纳推理任务中的潜力和局限。
Oct, 2023
在小型语言模型上进行自我纠正训练以提高推理能力,通过使用正确解决方案引导模型对不正确的回答进行批判,并使用生成的批评经过筛选后进行自我纠正理由的监督微调,实验证明在数学和常识推理方面的五个数据集上两种模型的自我纠正能力得到了提升,与 GPT-4 基于验证器的强配对时取得了显著的性能提升,但使用弱自验证器来确定何时进行更正存在一定的限制。
Apr, 2024
通过引入 SELF-REFINE 框架,可以通过迭代反馈和改进从 LLMs 获得更好的输出,同时不需要监督训练数据或强化学习,且在 7 种任务中展现出优越性能。
Mar, 2023
本文研究大型语言模型在复杂推理任务中的局限性,提出了 Logic-LM++ 作为对 Logic-LM 和基于 LLMs 的技术的改进,通过利用 LLMs 进行成对比较,可以评估 LLM 建议的改进。研究结果表明,在自然语言推理任务中,Logic-LM++ 在两个数据集 FOLIO 和 AR-LSAT 上的性能优于 Logic-LM 和基于 LLMs 的技术,标准提示的平均改进率为 13.5%,思维链提示的改进率为 11%,而 Logic-LM 的改进率为 5%。
Jun, 2024
我们提出了自我改进指导调整方法,通过引导较小语言模型进行自我改进,以实现对推理能力的进一步发展。此方法通过在大型语言模型提供示范的基础上,将推理能力从较大语言模型传输到较小语言模型,然后使用优化策略使得被指导的模型自我改进能力。在常识与数学推理任务上的结果表明,该方法在领域内外场景均显著优于指导调整方法,并使得较小语言模型与较大语言模型的推理能力逐渐趋于一致。
May, 2024
本文通过介绍一种新的合成问答数据集 PrOntoQA,旨在通过对 LLMs 的系统探索,该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析,表明 LLMs 能够进行正确的逻辑推理,但在方案规划方面存在困难。
Oct, 2022
大型语言模型(LLMs)在知识广泛的任务中受到参数知识的限制,从而导致幻觉现象。为了解决这个问题,检索增强生成(RAG)通过引入外部文档片段来扩展 LLM 的知识。此外,通过提取或总结文档片段中的信息可以改善 LLM 的性能。然而,LLMs 仍然难以察觉和利用分散的关键信息,这被称为 “中间丢失” 综合症。因此,我们通常需要重构内容以便 LLM 能够识别关键信息。我们提出了一种名为 “Refiner” 的端到端提取和重构方法,它在 RAG 的后检索过程中运行。Refiner 利用一个单独的仅解码 LLM,根据其相互连通性适应性地提取查询相关内容以及必要上下文,并将它们分割成部分,从而突出信息的区别,并有效地将下游 LLMs 与原始上下文对齐。实验证明,经过训练的 Refiner(具有 7B 个参数)在提高回答准确性方面对下游 LLM 有显著的增益,并在各种单跳和多跳 QA 任务中优于其他最先进的 RAG 和并发压缩方法。值得注意的是,与最佳解决方案相比,Refiner 在多跳任务中实现了 80.5%的标记减少和 1.6-7.0%的改进边际。Refiner 是一种即插即用的解决方案,可以与 RAG 系统无缝集成,便于在各种开源框架中应用。
Jun, 2024
近年来,大型语言模型展现出了令人瞩目的生成能力,但它们能判断自己生成的质量吗?我们提出了一种名为 ART 的推理与改进目标,通过提出必要的问题来决定何时应该改进模型的输出,并通过对改进和初始预测进行排名来确认或保留对改进的信任。在数学 word 问题和问答任务上,ART 相较于自我改进的基线表现提高了 5 个百分点,并且更小的模型作为决策者显示出了使用更小模型进行改进决策的好处,作为经济高效的替代方法。
Nov, 2023