重读改善语言模型的推理能力
本文综述了大型语言模型在推理方面的最新研究,包括提高它们的推理能力的方法、评估它们的推理能力的基准和方法,以及这一领域之前研究的发现和意义,旨在激发有意义的讨论和未来的研究。
Dec, 2022
本文提出了一种名为 'rethinking with retrieval' (RR) 的后置处理方法,借助 'chain-of-thought' (CoT) 提示中的分解推理步骤检索相关的外部知识,从而改善大语言模型在常识推理、时间推理和表格推理等方面的性能。
Dec, 2022
通过对输入提示的系统变化进行敏感性分析,我们发现 LLMs 的性能受到例示 - 查询相似度的影响,并且推理能力源于近似检索,而非内在推理能力。
May, 2024
提出了一种信息重新组织(InfoRE)方法,通过在推理之前对上下文内容进行重新组织处理,从而增强了大型语言模型(LLMs)的推理能力。在各种上下文感知的多跳推理任务中,通过零射击设置,我们实验评估了该方法在 Llama2-70B、GPT-3.5 和 GPT-4 上的效果,平均改进了 3%,突显了它改善 LLMs 推理性能的潜力。
Apr, 2024
介绍了一种名为 “重述和回答”(RaR)的方法,通过使人类的问题被大型语言模型(LLMs)重述和展开,从而在单个提示中提供回答,以提高 LLM 的性能。还介绍了 RaR 的两步变体方法,通过将问题由一个 LLM 重述后传递给另一个 LLM,有效地利用了由一个 LLM 生成的重述问题。实验证明这些方法显著提高了不同模型在各种任务上的性能,并与 Chain-of-Thought(CoT)方法进行了综合比较,发现 RaR 与 CoT 互补,结合使用效果更好。该工作不仅对提高 LLM 性能具有高效和有效的贡献,还对公正评估 LLM 能力具有重要意义。
Nov, 2023
本研究提供关于以语言模型提示为基础的推理的前沿研究的综合调查,介绍与比较了相关研究工作,并提供系统化的资源以帮助初学者,同时讨论了产生此类推理能力的潜在原因和未来的研究方向。
Dec, 2022
该论文介绍了一种新方法,即通过多个语言模型实例的反复辩论和推理过程,以达成一个共同的最终答案,从而改善语言响应的表现,特别是在数学和策略推理方面,改善了已有模型中一些常见问题,如虚假答案和幻觉现象,并有望显著提高大型语言模型的性能和开拓语言生成和理解领域。
May, 2023
通过将自然语言问题转化为代码并用生成的代码提示进行训练,作者发现代码提示在需要条件推理的多个数据集上提高了 2.6 到 7.7 个 GPT 3.5 的绩效,并且观察到代码提示需要包含自然语言文本和高质量代码,以及其触发更优的变量或关键实例的状态跟踪。
Jan, 2024
通过多模型合作和多模型头脑风暴的方式,可以在逻辑推理和事实提取方面显著提高效果,并且发现两个小参数模型通过头脑风暴可以达到接近大参数模型的准确度,为大型语言模型的分布式部署提供了新的解决方案。
Jun, 2024
通过对 LLMs 的选择性整合外部知识,介绍了一种基于多个 LLM 之间交互协助的外部推理新方法 (ChatPDF),在人类反馈的响应下,根据查询的复杂性调整支持水平,经过全面评估后取得了最先进的性能,并且相比 LLMs 直接处理全文,这种方法更加高效。
Jul, 2023