关注驱动推理：释放大型语言模型的潜力

Mar, 2024

关注驱动推理：释放大型语言模型的潜力

Attention-Driven Reasoning: Unlocking the Potential of Large Language Models

Bingli Liao, Danilo Vasconcellos Vargas

TL;DR通过优化注意力机制来增强大型语言模型的推理能力，特别是对非科学、技术、工程和数学（STEM）问题的推理能力，通过重新平衡注意力分布来提高模型的抽象能力并探索注意力模式在推理中的作用，为更强大和多功能的语言模型铺平道路。

Abstract

large language models (LLMs) have shown remarkable capabilities, but their reasoning abilities and underlying mechanisms remain poorly understood. We present a novel approach to enhance LLMs' reasoning through at

large language models reasoning abilities attention mechanism optimization non-semantic tokens attention patterns

发现论文，激发创造

民主化推理能力：从大型语言模型的个性化学习

通过多轮互动学习范式和自我反思学习，我们提出了一种定制化学习方法，从而将推理能力传授给较小的语言模型，以促进推理能力的开放和普及。

Oct, 2023

用计划标记引导语言模型推理

最近大型语言模型（LLMs）因其执行复杂的推理任务的能力而引起了相当大的关注，但是大部分现有的增强这种能力的方法都过于依赖数据驱动的方法，而忽视了模型推理能力的结构方面。在我们的研究中，我们发现 LLMs 能够很好地处理个别的推理步骤，却在整个推理链上保持一致性方面遇到困难。为了解决这个问题，我们在每个推理步骤的开始引入了 “规划标记”，作为模型的指南。然后，这些标记嵌入与模型的其余参数一起进行微调。我们的方法所需的可训练参数增加微不足道（仅占总参数的 0.001%），可以通过完全微调或更加参数高效的方案来实施。我们通过将其应用于三种不同的 LLMs，并对三个数学问题数据集进行了评估，展示了我们方法的有效性，相对于原始的链式思维微调基准，取得了显著的准确性提升。

Oct, 2023

探索令牌偏差：大型语言模型尚未成为真正的推理者

该研究介绍了一个假设检验框架，用于评估大型语言模型（LLMs）是否具有真正的推理能力，还是主要依赖于令牌偏差。我们超越准确性的评估，旨在调查 LLMs 在解决逻辑推理任务时的令牌偏差。具体而言，我们开发了精心控制的合成数据集，其中包括合取谬误和演绎问题。我们的框架概述了一系列假设，其中令牌偏差很容易被识别，所有零假设均假设 LLMs 具有真正的推理能力。本研究的发现以统计保证表明，多数 LLMs 在逻辑推理方面仍然有困难。尽管它们在经典问题上表现出色，但它们的成功主要依赖于识别带有强烈令牌偏差的表面模式，因此引发了对其实际推理和泛化能力的担忧。

Jun, 2024

超越准确性：评估大型语言模型的推理行为 -- 调查研究

大型语言模型在推理任务中表现出色，但是它们的推理能力深度尚不确定。本文通过综述超越任务准确性的研究，深入探讨模型的推理过程，并调查评估语言模型推理行为的方法，发现其依赖于训练数据的表面模式和相关性，而非真正的推理能力。同时，我们指出需要进一步研究人类推理与语言模型推理之间的关键差异。通过此综述，我们旨在揭示大型语言模型内部复杂的推理过程。

Apr, 2024

大型语言模型逻辑推理的教学学习

通过对大型语言模型的研究，我们发现它们在逻辑推理方面存在缺陷，导致其在任务解决中产生反事实的答案。为了解决这个问题，我们提出了多种策略，赋予大型语言模型逻辑推理能力，从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析，验证了通过逻辑训练大型语言模型的有效性和必要性，并为将来的工作提供了启示。

Oct, 2023

LogicLLM: 探索基于自监督逻辑增强训练的大型语言模型

本篇论文主要介绍了如何通过自监督后训练和上下文学习来增加逻辑知识，从而提高语言模型的逻辑推理能力，取得了比现有基线更好的效果。

May, 2023

大语言模型的推理能力：一项调查

本文综述了大型语言模型在推理方面的最新研究，包括提高它们的推理能力的方法、评估它们的推理能力的基准和方法，以及这一领域之前研究的发现和意义，旨在激发有意义的讨论和未来的研究。

Dec, 2022

打破语言障碍：通过结构化自注意力提升跨语言推理

本研究探讨了多语言语言模型（MultiLMs）在针对不同语言推理时，是否能够将逻辑推理能力转移到其他语言。通过在两种方案中评估 MultiLMs 的跨语言推理能力，我们发现在单语言设置下，MultiLMs 可以在语言之间传递推理能力，但在混合代码推理的情况下，它们很难传递推理能力。基于此观察，我们提出了一种新颖的注意机制，利用专门的参数集在混合代码序列中鼓励跨语言注意力，从而在 RuleTaker 和 LeapOfThought 数据集上分别将推理性能提高了 14% 和 4%。

Oct, 2023

MindMerger: 非英语语种中高效提升 LLM 推理能力

LLMs 与多语言模型中的外部语言理解能力的融合方法 MindMerger 可提高多语言推理性能。在多个语言推理数据集上的实验证明，MindMerger 相较于其他方法具有更好的性能，尤其对于资源稀缺的语言。在 MGSM 数据集上，不更新 LLMs 的参数，平均准确率分别提升了 6.7% 和 8.0%，涵盖所有语言和资源稀缺的语言。

May, 2024

一项测试模型在某些推理任务中的能力的案例研究

大型语言模型在生成个性化内容和促进交互对话方面表现出色，但在推理能力和提供可解释性输出方面仍有待提高。本研究深入探讨了大型语言模型的推理能力，突出了当前挑战和限制，阻碍了它们在复杂推理场景中的有效性。

Feb, 2024