如何截断权重提高语言模型中的推理能力

Jun, 2024

如何截断权重提高语言模型中的推理能力

How Truncating Weights Improves Reasoning in Language Models

Lei Chen, Joan Bruna, Alberto Bietti

TL;DR大型语言模型在不同语言中生成流利文本的同时，通过去除预训练模型中的特定组件或 Transformer 块中特定权重部分，研究发现可以提高逻辑推理能力，通过分析训练过程和实验数据，探究了这个现象，并在简单的推理任务上测试了性能。

Abstract

In addition to the ability to generate fluent text in various languages, large language models have been successful at tasks that involve basic forms of logical "reasoning" over their context. Recent work found that selectively removing certain components from weight matrices in pre-tr

large language models reasoning capabilities weight components transformer blocks performance

发现论文，激发创造

修剪能否提高大型语言模型的效率？

通过对 Transformer 架构进行参数剪枝的优化策略，通过广泛实验和超参数选择，研究发现可以在不牺牲性能的情况下显著减少模型大小，并改善通用性能，从而在深度学习应用方面实现更可扩展和环境友好的方式。

Oct, 2023

其中隐藏真理：使用层选择性排名降低改善语言模型的推理能力

通过选择性删除大型语言模型（LLMs）的高阶权重矩阵组成部分，可以显著提高其性能，称为 LASER（LAyer-SElective Rank reduction）方法。该方法在训练完成后对模型进行简单介入，不需要额外的参数或数据，并通过广泛的实验证明其在语言模型和数据集上的普遍适用性，同时提供了深入的分析来揭示 LASER 的有效性和运作机制。

Dec, 2023

掩盖思路：简单地掩盖部分推理步骤可以提高语言模型对数学推理的学习能力

在推理任务中，我们发展了一种避免使用外部资源的训练方法，通过对输入引入扰动，特别针对推理任务我们发现随机屏蔽思考链中的某些标记是特别有效的。当应用于使用 GSM8K 进行微调时，此方法相比于标准的有监督微调在准确性方面提高了 5%，无需额外的标记工作。此外，它与现有方法相辅相成，当与相关的数据增强方法整合时，它在五个不同质量和大小的数据集以及两个基本模型上分别提高了 3% 和 1% 的准确性。我们通过案例研究和定量分析进一步研究了这种改进的机制，这表明我们的方法可能在捕获长距离依赖性方面为模型提供更好的支持，特别是与问题相关的依赖性。这种增强可以加深对问题前提和先前步骤的理解。我们的代码在 Github 上可用。

Mar, 2024

為什麼举得那麼重？通过削减层数减轻大型语言模型

通过减少层数，可以缩小大型语言模型的规模，而仍能保持或提升其在文本分类任务中的性能水平。

Feb, 2024

为什么要逐步思考？推理出自于体验的本地性

使用语言模型探究推理何时及为何有帮助，得出推理步骤的有效性取决于训练数据的统计结构和中间变量与目标推理之间的相关性。

Apr, 2023

Transformer 中的推理：减轻伪相关性和推理捷径

用已知有误导性关联的数据集，在逻辑推理任务中训练两种模型：基于证明的生成式 Transformer 模型 WP-BART 和神经符号模型 SIP-BART。结果发现，SIP-BART 能够避免逻辑推理的捷径，而 WP-BART 无法。对于 SIP-BART，还发现了几种之前文献中未描述的推理错误类型，并进行了定性分析，创建了一个包含四种不同陷阱类型的分类系统。

Mar, 2024

教授小型语言模型推理

本文探讨通过知识蒸馏将大型语言模型的推理能力迁移至小于 1000 亿参数的模型，实现任务的表现提升，对算术、常识和符号推理数据集效果显著，例如在 PaLM-540B 生成的思考链上进行微调后，T5 XXL 在 GSM8K 的准确率从 8.11％提高至 21.99％。

Dec, 2022

LLM 外科医生

通过数据驱动的预训练模型压缩方法，我们可以在不牺牲性能的情况下，对大型语言模型进行剪枝，减小模型的规模。

Dec, 2023

大型语言模型的结构裁剪

该研究通过结构化剪枝方法，以低秩分解参数化权重矩阵并在训练过程中自适应地移除秩 1 分量，提高了大型语言模型的压缩效果和训练 / 推理速度，并展示了该方法可应用于 BERT 模型的下游 fine-tuning 分类。

Oct, 2019

将数字推理技能注入语言模型

通过在大量数据集上进行多任务训练，我们展示了数值推理可以注入到预训练的语言模型中，使性能得到显著提高。在一个简单通用的 encoder-decoder 架构上训练，我们的模型 GenBERT 在 DROP 数据集上的性能可以达到与同等规模的最先进模型相媲美，同时在数学单词问题数据集上保持高性能，这种方法为延展技能到大型预训练语言模型提供了一般的解决方案。

Apr, 2020