其中隐藏真理：使用层选择性排名降低改善语言模型的推理能力

Dec, 2023

其中隐藏真理：使用层选择性排名降低改善语言模型的推理能力

The Truth is in There: Improving Reasoning in Language Models with Layer-Selective Rank Reduction

Pratyusha Sharma, Jordan T. Ash, Dipendra Misra

TL;DR通过选择性删除大型语言模型（LLMs）的高阶权重矩阵组成部分，可以显著提高其性能，称为 LASER（LAyer-SElective Rank reduction）方法。该方法在训练完成后对模型进行简单介入，不需要额外的参数或数据，并通过广泛的实验证明其在语言模型和数据集上的普遍适用性，同时提供了深入的分析来揭示 LASER 的有效性和运作机制。

Abstract

transformer-based large language models (LLMs) have become a fixture in modern machine learning. Correspondingly, significant resources are allocated towards research that aims to further advance this technology,

transformer-based large language models layer-selective rank reduction performance improvement weight matrix language models

发现论文，激发创造

基于选取：预训练大型语言模型的低秩分解与目标应用

通过低秩分解方法，我们可以削减大型语言模型的冗余组件，压缩模型大小并保持与最先进压缩技术相当的准确性。

May, 2024

為什麼举得那麼重？通过削减层数减轻大型语言模型

通过减少层数，可以缩小大型语言模型的规模，而仍能保持或提升其在文本分类任务中的性能水平。

Feb, 2024

基于大规模语言模型的长篇数据重打分

研究表明，在使用大规模语言模型的情况下，对于长篇 ASR 测试集，可以使 Word Error Eate 和 Salient Term Error Rate 分别减少 8% 和 30%。

Jun, 2023

重新思考压缩：大型语言模型中潜在特征的简化建模

通过降阶建模和重参数化，本文提出了一种创新的大规模语言模型压缩方法，可在对内存和时间有严格限制的条件下，以逐层方式对十亿级模型进行压缩，与当前流行的结构化修剪方法相比，展现出卓越的效果。

Dec, 2023

大型语言模型不是好的小样本信息提取器，但是对于难样本是一个很好的重新排名器！

通过使用自适应的筛选和重排序范式，使用大型语言模型和小型预训练语言模型相互补充，可以提高信息提取任务的性能和效率，并消减时间和预算成本。

Mar, 2023

如何截断权重提高语言模型中的推理能力

大型语言模型在不同语言中生成流利文本的同时，通过去除预训练模型中的特定组件或 Transformer 块中特定权重部分，研究发现可以提高逻辑推理能力，通过分析训练过程和实验数据，探究了这个现象，并在简单的推理任务上测试了性能。

Jun, 2024

基于特征的大型语言模型通过贝叶斯优化的低秩压缩

近年来，大型语言模型（LLMs）在自然语言处理方面取得了重要进展，但其规模的增大增加了计算负担，需要在效率和性能之间取得平衡。为了解决 LLMs 中低秩压缩的挑战，我们对大模型的低秩特性进行了实证研究，并提出了一种适用于 LLMs 的低秩压缩方法，该方法通过汇总协方差矩阵的特征分布精确估计和贝叶斯优化策略来分配低秩维度。我们在 LLaMA-2 模型上的实验表明，我们的方法在相同的压缩比下比现有的强结构剪枝和低秩压缩技术表现更佳，能够保持模型的性能。

May, 2024

LaCo：大型语言模型通过层坍缩进行修剪

提出了一种被称为 extit {Layer Collapse (LaCo)} 的简洁的逐层修剪方法，将后置模型层折叠到先前层，实现了模型大小的快速减小而同时保留了模型结构；全面的实验表明，该方法在修剪比例为 25-30% 时保持了超过 80% 的平均任务性能，显著优于现有最先进的结构修剪方法；还进行了后训练实验证实所提出的修剪方法有效继承了原始模型的参数，并从逐层相似性的角度讨论了提出该方法的动机，评估了修剪的大型语言模型在各种修剪比例下的性能。

Feb, 2024

LLMs 的手术特征空间分解：为什么，何时和如何？

低秩近似在大型语言模型中的应用及其对性能和模型偏差的影响的实证研究。

May, 2024

使用大型语言模型进行可解释的逻辑推理的 Selection-Inference 方法

本文对大型语言模型在逻辑推理方面进行了全面评估，提出了一种基于选择和推理的框架，可以在不进行微调的情况下改进性能，并伴随着因果自然语言推理过程的答案。

May, 2022