光谱滤波器、暗信号和注意力池

Feb, 2024

Spectral Filters, Dark Signals, and Attention Sinks

Nicola Cancedda

TL;DR将中间表示投影到词汇表是转换器模型 LLMs 的一种越来越流行的解释工具，我们提出了一种定量扩展方法，并基于将词汇表嵌入和未嵌入矩阵的奇异向量进行分组来定义中间表示的谱滤波器。通过保持注意力下沉，我们发现尽管部分抑制嵌入谱的大小，预训练模型的损失可以保持较低。最后，我们发现吸引许多标记的标记的表示在谱的尾部具有较大的投影。

Abstract

Projecting intermediate representations onto the vocabulary is an increasingly popular interpretation tool for transformer-based llms, also known as the logit lens. We propose a quantitative extension to this approach and define →

transformer-based llms spectral filters attention sinking pretrained models embedding spectrum

发现论文，激发创造

透过棱镜看语言：一种用于多尺度语言表示的光谱方法

该研究通过分析神经元在不同时间尺度下的激活行为，提出了一种自然的信号处理框架来分离不同尺度上的结构，并应用谱滤波器训练模型在不同尺度上进行学习，产生了更好的预测性能。

Nov, 2020

倒推镜头：将语言模型梯度投影到词汇空间

理解 Transformer-based 语言模型是深度学习社区的一个关键目标，最近的可解释性方法在前向通道的权重和隐藏状态上帮助发现信息在模型中的流动，本研究将这种方法扩展到后向通道和梯度，证明了梯度矩阵可以被看作是前向和后向通道输入的低秩线性组合，并开发了投影这些梯度到词汇项的方法，探索了如何在语言模型的神经元中存储新信息的机制。

Feb, 2024

Transformer 需要眼镜！语言任务中的信息过度压缩

研究信息在解码器单独的 Transformer 模型中的传播，发现了表示崩溃现象和对特定标记的敏感性丧失，并提供了简单的解决方案。

Jun, 2024

深入探讨光谱嵌入

该研究论文提出了两种新的方法，一种基于函数分析原则和核方法，另一种是基于训练优化原则变分损失的深度网络，以构建数据的谱嵌入，并提供了一个新的采样算法，以在单个步骤中利用学习的表示来生成新样本。

Jun, 2023

学习多模态表示的自适应 Transformer

研究 transformers 中的注意机制对视觉和语言任务的扩展，并发展适应性方法来提高模型的可解释性和计算效率。具体地，研究注意范围、稀疏和结构化 dropout 等方法，以帮助了解模型对输入序列的复杂性感知和对不同模态的稀疏性偏好。

May, 2020

解读 Transformer 的注意力动态记忆与可视化 GPT 的语义信息流

通过对 transformer-based 语言模型的 attention 头和 memory values 进行解释，我们可以将 GPT 的前向传递可视化为交互式流图，从而发现模型输出结果的原因和 LM 组件在模型中的作用。

May, 2023

对 Transformer 语言模型的层间通信的理解

通过分析 Transformer 语言模型中的机制，研究揭示了其通过低秩通信信道在不同层之间传递和存储特征的方式，通过分解注意力头权重矩阵进而预测层间相互作用的方法，以及利用该机制改善内部模型表示和权重来提升任务性能的结构学习，为进一步分析复杂行为提供帮助。

Jun, 2024

光谱探测

通过开发可完全学习的频率过滤器，我们可以在不同层次和频率上捕捉语言信息。在单语言环境下，我们证明了频谱探测比手工滤波器具有更高的信息量，并在六种语言中的七个 NLP 任务中进行了多语言分析。这些分析鉴定了独特的频谱轮廓，是一种语言直观的方法，而且跨语言是一致的，并展示了其作为强大而轻量级任务描述符的潜力。

Oct, 2022

低资源口语理解的瓶颈低秩变换器

本文介绍了如何使用变形器结构并应用群稀疏技术实现拥有较高精度、更小规模 SLU 模型的生成，从而避免使用预先训练的参数较多的大型模型。

Jun, 2022

变压器辅助的语义通信

通过使用 transformer 结构进行特征提取，以实现图像压缩和紧凑表示，从而优化语义通信的质量和带宽利用效率。

May, 2024