貌似合理的干扰项在多跳推理中的作用：大型语言模型是否是细致的读者？

Sep, 2024

貌似合理的干扰项在多跳推理中的作用：大型语言模型是否是细致的读者？

Seemingly Plausible Distractors in Multi-Hop Reasoning: Are Large Language Models Attentive Readers?

Neeladri Bhuiya, Viktor Schlegel, Stefan Winkler

TL;DR本研究针对当前大型语言模型在多跳推理能力方面的不足，特别是它们在利用简化提示绕过推理要求的问题。研究发现，大型语言模型确实可能会通过更加微妙的方式规避这些推理要求，并提出了一种新的多跳推理基准，生成貌似合理但最终错误的推理链，显著影响模型的表现，F1分数最高下降45%。

Abstract

State-of-the-art Large Language Models (LLMs) are accredited with an increasing number of different capabilities, ranging from reading comprehension, over advanced mathematical and reasoning skills to possessing scientific knowledge. In this paper we focus on their →

发现论文，激发创造

大语言模型的推理能力：一项调查

本文综述了大型语言模型在推理方面的最新研究，包括提高它们的推理能力的方法、评估它们的推理能力的基准和方法，以及这一领域之前研究的发现和意义，旨在激发有意义的讨论和未来的研究。

Dec, 2022

内存注入：纠正变压器式语言模型推理中的多跳推理错误

通过对LLM注意力头部进行有针对性的内存注入，我们提出了一种解决多跳推理失败的方法，从而增强了多跳提示完成的质量。我们展示了在多跳任务中，向关键注意力层注入简单、高效和有针对性的记忆可以显著提高所需下一个标记的概率，最高可达424%。

Sep, 2023

噪声示例提高大型语言模型的鲁棒性：无领域行为分析

通过域不可知的扰动，我们引入了一种系统的方法来测试大型语言模型在多跳推理任务中的鲁棒性，发现模型对于某些扰动（如用同义词替换单词）更为敏感，并且我们证明增加提示中扰动示例的比例可以提高少样本提示方法的鲁棒性。

Nov, 2023

使用知识图谱直接评估多跳推理中的思路一致性

大型语言模型（LLMs）在生成连贯思路解释时展现出强大的推理能力，然而，之前的研究仅关注于回答的准确性，忽略了生成的连贯思路的正确性。本文通过利用知识图谱（KGs）深入探讨LLMs在多跳问题回答中的连贯思路推理能力。我们提出了一种新颖的区分性和生成性连贯思路评估范式，用于评估LLMs关于推理的知识和生成连贯思路的准确性。通过在两个多跳问题回答数据集上对5个不同家族的LLMs进行的实验证明，LLMs具有足够的知识进行推理，然而，LLMs生成的连贯思路的准确性与回答的准确性存在显著差异，表明它们经常通过错误的推理方法得出正确的答案。

Feb, 2024

大型语言模型知识编辑中多跳事实捷径的探索研究

本研究系统地探究了大型语言模型（LLMs）利用直接连接的简化路径进行多跳知识推理的可能性，发现知识神经元的强度与多个知识段落中初始和终止实体的共现频率高度相关，以及擦除简化路径神经元可以减少多跳知识编辑中由于简化路径而引起的失败。

Feb, 2024

大型语言模型是否具备潜在的多跳推理能力？

我们研究了大型语言模型是否会潜在地使用复杂提示进行多跳推理，例如“‘Superstition’歌手的妈妈是谁”。我们寻找潜在的推理路径，其中语言模型（1）将“‘Superstition’歌手”潜在地认定为桥梁实体Stevie Wonder，（2）利用自己对Stevie Wonder母亲的了解来完成提示。我们分析了这两个跳跃的独立情况，并将它们的共同出现视为潜在多跳推理的指示。对于第一个跳跃，我们测试了将提示间接提及桥梁实体而不是其他实体是否增加了语言模型对桥梁实体的内部召回率。对于第二个跳跃，我们测试了增加这种召回率是否使语言模型更好地利用其对桥梁实体的了解。我们发现，在某些关系类型的提示中存在强烈的潜在多跳推理证据，超过80%的提示中使用了这种推理路径。然而，利用是高度情境化的，在不同类型的提示中有所变化。此外，平均而言，第二个跳跃和完整的多跳遍历的证据相对较为适度，只有第一个跳跃的证据较为显著。此外，我们发现，随着模型大小的增加，第一个跳跃的推理存在明显的规模性趋势，但第二个跳跃不存在。我们的实验结果对未来大型语言模型的发展和应用提出了挑战和机遇的建议。

Feb, 2024

超越准确性：评估大型语言模型的推理行为--调查研究

大型语言模型在推理任务中表现出色，但是它们的推理能力深度尚不确定。本文通过综述超越任务准确性的研究，深入探讨模型的推理过程，并调查评估语言模型推理行为的方法，发现其依赖于训练数据的表面模式和相关性，而非真正的推理能力。同时，我们指出需要进一步研究人类推理与语言模型推理之间的关键差异。通过此综述，我们旨在揭示大型语言模型内部复杂的推理过程。

Apr, 2024

LLMs中的分布式推理：多跳推理中的并行推理过程

大型语言模型具有出色的能力来执行需要思考过程的任务，本研究引入了一种新颖且可解释的分析方法，探讨了大型语言模型内部的多跳推理过程，揭示了模型通过简单线性变换来建模组合推理问题的预测过程，并且发现网络的中间层生成高度可解释的嵌入，代表了多跳问题的一组潜在中间答案，这些观察结果揭示了平行推理路径的存在，即使模型缺少解决任务所需的知识，这些结果有助于揭示大型语言模型解决推理任务的策略，并提供了人工智能所能产生的思维过程类型的见解，最后还讨论了认知建模的这些结果的含义。

Jun, 2024

提升长上下文语言模型的多跳推理能力

本研究解决了当前长上下文语言模型在多跳推理中表现不足的问题，尤其是在嘈杂上下文中。我们提出了“推理与归因”的新方法，通过促使模型在推理过程中为每个断言提供归因，从而增强推理能力。实验结果表明，经过微调的模型在多跳推理基准测试上取得了与现有先进模型接近的竞争性表现。

Aug, 2024

通过知识抹除增强大型语言模型编辑中的多跳推理

本研究针对大型语言模型（LLMs）在多跳推理中面临的内在知识不准确和过时问题，提出了一种新的知识编辑方法。通过引入知识抹除机制（KELE），并结合认知神经科学的理论，验证了残余单跳知识对多跳推理性能的负面影响，从而显著提升了编辑后LLMs的多跳推理能力。

Aug, 2024