先关注，后整合：不同LLM层中注意力的重要性

Sep, 2024

先关注，后整合：不同LLM层中注意力的重要性

Attend First, Consolidate Later: On the Importance of Attention in Different LLM Layers

Amit Ben Artzy, Roy Schwartz

TL;DR本研究探讨了解码器基础的LLM中各层表示的作用，指出注意力机制的某些层次作用被高估。研究通过操作前置标记的表示，发现顶层的修改对性能影响有限，而早期层的修改则可能导致性能下降。这表明了变换器基础LLM中可能存在的两阶段处理流程。

Abstract

In decoder-based LLMs, the representation of a given layer serves two purposes: as input to the next layer during the computation of the current token; and as input to the Attention mechanism of future tokens. In this work, we show that the importance of the latter role might be overes

发现论文，激发创造

基于LLMs时代的解码方法全面研究

该研究通过全面而多方位的分析，评估了大型语言模型在各种任务、模型和部署环境下的解码方法的性能表现、对超参数变化的鲁棒性和解码速度，发现解码方法的性能与任务相关，并受到对齐、模型规模和量化等因素的影响。有趣的敏感性分析揭示了某些方法在广泛超参数调节的代价下实现了更优的性能，凸显了在不同环境中实现最优结果与实施实用性之间的权衡。

Feb, 2024

推理过程中不需要所有LLM层

利用适应性输入实例的简单算法AdaInfer，在Large Language Models的推理阶段中使用浅层次进行简单实例的推理和深层次进行困难实例的推理，可在节省计算资源的同时保持性能。

Mar, 2024

对Transformer语言模型的层间通信的理解

通过分析Transformer语言模型中的机制，研究揭示了其通过低秩通信信道在不同层之间传递和存储特征的方式，通过分解注意力头权重矩阵进而预测层间相互作用的方法，以及利用该机制改善内部模型表示和权重来提升任务性能的结构学习，为进一步分析复杂行为提供帮助。

Jun, 2024

大型语言模型在扩散模型中的提示编码作用探索

利用新提出的框架，将大型语言模型与文本到图像生成模型灵活地集成在一起，并通过消除固有的位置偏差和增强文本表示能力提高预测性能。

Jun, 2024

揭示和利用隐藏的注意力汇聚：通过注意力校准增强大型语言模型的性能

通过细致研究和可视化大型语言模型（LLMs）中的注意力分布，本研究发现注意力汇的存在可以通过在提取信息时实时优化的了解，从而提高LLMs的准确性并避免权重调整。

Jun, 2024

LLM电路分析在训练和尺度方面的始终如一性

追踪了70百万到28亿参数规模的3000亿标记的解码器型大语言模型中模型机制的出现和演化，发现任务能力和支持它们的功能组件在规模不同的情况下一致地出现，并且虽然这些组件可能随时间由不同的注意力头实现，但其实施的总体算法保持不变。这些结果表明，在预训练结束后进行的对小型模型的线路分析仍然适用于额外的预训练和不同规模的模型。

Jul, 2024

超越KV缓存：用于高效LLMs的共享注意力

通过直接在多个层之间共享计算的注意力权重，利用传统注意力机制带来的计算和存储资源消耗问题，这篇论文介绍了一种新型的共享注意力（Shared Attention）机制，实现在资源有限环境下提高大型语言模型（LLMs）的效率。

Jul, 2024

跨层注意力共享的大型语言模型

本研究针对大型语言模型中由于深度和参数数量增加而导致的冗余问题，提出了一种新的解决方案。通过深入分析，发现各层之间的注意力模式高度相似，因此引入了一种名为LiSA的轻量级自注意力替代方案，它通过小型前馈网络对齐相邻层的注意力头并利用低秩矩阵近似层间注意力权重的差异。实验表明，LiSA在减少53-84%冗余计算的同时，保持了高响应质量。

Aug, 2024

研究大型语言模型中层的重要性

本研究针对大型语言模型（LLMs）在理解和处理文本中的不透明性问题，通过研究模型中各层的重要性来填补这一空白。我们提出了一种高效的抽样方法，利用Shapley值评估层的重要性，并通过剖析实验显示，某些早期层被称为“基石层”，其移除会导致模型性能显著下降。这一发现为未来的LLM研究提供了重要的基础。

Sep, 2024

发现早期层中的宝藏：通过减少1000倍输入令牌加速长上下文LLM

该研究针对大型语言模型（LLM）在处理长上下文输入时资源消耗和延迟增加的问题，提出了一种新方法，以加速推理并减少GPU内存使用。通过利用LLM早期层筛选相关令牌，研究开发了GemFilter算法，实现了比现有技术显著的速度提升（2.4倍）和30%的内存使用减少，具有广泛的适用性和可解释性。

Sep, 2024