跳到结论：利用线性转换简化 Transformer

Mar, 2023

跳到结论：利用线性转换简化 Transformer

Jump to Conclusions: Short-Cutting Transformers With Linear Transformations

Alexander Yom Din, Taelin Karidi, Leshem Choshen, Mor Geva

TL;DR通过使用线性转换法，我们展示了在语言模型中激活层早期的内部决策过程，这种方法不仅可以产生更加精确的近似结果，还具有节省计算资源的优点。

Abstract

transformer-based language models (LMs) create hidden representations of their inputs at every layer, but only use final-layer representations for prediction. This obscures the internal decision-making process of the model and the utility of its intermediate representations. One way to

transformer-based language models linear transformations early layer representations early exit strategies attention

发现论文，激发创造

Transformer 语言模型中的关系解码的线性性

基于 transformer 语言模型的研究中，发现存在一种简单而可解释的、但在各种情况下应用不一的知识表示策略，其主要通过关系、线性变换以及预测表达出来。

Aug, 2023

你的 Transformer 其实是线性的

该研究揭示了一种新颖的线性特性，仅限于 Transformer 解码器，包括 GPT、LLaMA、OPT、BLOOM 等模型。我们分析了顺序层之间的嵌入变换，揭示出几乎完美的线性关系（Procrustes 相似度得分为 0.99）。然而，由于 Transformer 层输出的一致较低的范数，残差成分被移除后，线性度下降。我们的实验证明，移除或线性逼近一些最线性的 transformer 模块对损失或模型性能没有明显影响。此外，在我们的小型模型的预训练实验中，我们引入了基于余弦相似性的正则化，旨在降低层的线性度。这种正则化改善了 Tiny Stories 和 SuperGLUE 等基准测试的性能指标，并成功降低了模型的线性度。该研究挑战了现有对 Transformer 架构的理解，表明它们的操作可能比之前认为的更加线性。

May, 2024

变压器前馈层通过在词汇空间中促进概念来建立预测

通过反向工程变压器模型中的前馈神经网络层的运算过程，分析其词汇空间中的更新，控制预测结果，提高计算效率。

Mar, 2022

Transformer 需要眼镜！语言任务中的信息过度压缩

研究信息在解码器单独的 Transformer 模型中的传播，发现了表示崩溃现象和对特定标记的敏感性丧失，并提供了简单的解决方案。

Jun, 2024

Transformer 模型中表示形式的自下而上演化：机器翻译和语言建模目标研究

本文研究不同学习目标下深度神经网络中单个标记的表现形式和学习的特征空间结构如何在各层之间演变，通过经典相关性分析和互信息估计研究信息如何在 Transformer 的不同层之间流动，并说明此流程如何取决于学习目标的选择。

Sep, 2019

线性时间中的 Transformer 质量

本文提出使用门控注意力单元和线性近似方法改良 Transformers 模型的方法，新模型命名为 FLASH。该模型在短序列和长序列上都达到了改良 Transformers 的分词结果，同时在 Wiki-40B 和 PG-19 的自回归语言模型上训练速度最多提升了 4.9 倍，在掩蔽语言模型上提升了 4.8 倍。

Feb, 2022

朝着更小、更快的只解码 Transformer：架构变体及其影响

本研究引入了三种变体（ParallelGPT、LinearlyCompressedGPT 和 ConvCompressedGPT）来修改解码器专用的 Transformer 架构，这些变体在代码生成任务中取得了可比较的性能，同时具有模型尺寸较小和训练时间更快的优势。

Apr, 2024

语言变形机中高维抽象阶段的出现

一个关键的高维度阶段可以解释许多通用语言模型架构中的核心语言处理，由于其几何属性与功能的关系需要进一步研究。

May, 2024

语言模型作为层次编码器

利用超几何空间重新训练语言模型中的分层转换器编码器（Hierarchy Transformer encoders，HiTs），为回归语言模型中隐含的分层结构提供了一种新的方法，通过聚类与层级组织相关实体来提高在推论、预测和跨层次知识传递等任务中的性能和可转移性。

Jan, 2024

解读 Transformer 的注意力动态记忆与可视化 GPT 的语义信息流

通过对 transformer-based 语言模型的 attention 头和 memory values 进行解释，我们可以将 GPT 的前向传递可视化为交互式流图，从而发现模型输出结果的原因和 LM 组件在模型中的作用。

May, 2023