嵌入空间中的 Transformer 分析
Transformer language models are explored to understand their mechanics, revealing that intelligent behaviors are mapped as trajectories in an embedding space, with vector composition and organization playing a key role in the model's abilities, including knowledge acquisition and intelligence. A semantic space theory is formalized and tested, providing evidence for the representation of semantic concepts in embedding vectors.
Aug, 2023
该研究论文探讨自然语言处理领域的可解释性方法,重点关注 transformer 中前馈层激活空间(Activation Space),旨在加强该领域的研究。
Jan, 2023
利用我们提出的方法,可以反向工程训练用于解决图像分类任务的 Vision Transformers,并投影到学习的类别嵌入空间以揭示网络建立预测的分类表示的过程。该方法还展示了图像令牌如何根据注意力机制和上下文信息发展类别特定的表示,以及自注意力和 MLP 层在此分类组合中的差异性贡献。我们的研究结果表明,我们提出的框架在机械解释性和可解释性研究中具有强大的功能。
Oct, 2023
本文详细阐述基于 Transformer 架构的预训练嵌入如何用向量因子的总和来重新构造,展示它们在不同应用中成分的影响如何不同,以及微调对于整个嵌入空间的效果,从而与以前的广泛研究建立联系.
Jun, 2022
通过引入新颖的几何视角,本文揭示了 Transformer 操作的内部机制,主要贡献在于说明层归一化将潜在特征限制在一个超球面上,从而使得注意力能够塑造单词在这个表面上的语义表示。通过对经过预训练的 124M 参数的 GPT-2 模型进行探究,我们的发现揭示了早期层中的清晰查询 - 键注意力模式,并在更深层次上进一步构建了关于注意力头部的特定主题性的先前观察。利用这些几何洞察,我们给出了 Transformer 的直观理解,将其描述为沿着超球面的词粒子的轨迹的建模过程。
Sep, 2023
基于视觉转换器作为例子,通过分析和系统实验,我们展示了表示空间由大型分段线性子空间和局部正常空间组成,存在着不同输入具有相同表示和在视觉上难以区分的不同表示的输入。这些经验结果进一步通过基础模型的局部方向估计来验证。因此,得到的表示会改变下游模型的结果,并且这样的模型容易过度泛化且具有有限的迁移能力。
Jan, 2024
研究关注于解释性方法,通过检查模型的不同方面(例如权重矩阵或注意力模式)来理解训练模型(例如 Transformer)实现的算法。通过理论结果和对合成数据的仔细控制实验的组合,我们对专注于模型的个别部分而不是整个网络的方法提出了批判性观点。我们使用学习(有界)Dyck 语言的简单合成设置来理论上展示了解决此任务的模型集合满足的结构特征(基于形式语言的思想,即泵引理)并证明了最佳解集合具有丰富的定性特点;特定情况下,单层的注意力模式可以 “几乎随机化”,同时保持网络的功能性。通过大量实验证明了这些结论并不仅仅是理论产物:即使在严格约束模型架构的情况下,经过标准训练也可以得到截然不同的解决方案。因此,基于检查 Transformer 中的个别头部或权重矩阵的解释性声明可能是误导性的。
Dec, 2023
通过对 transformer-based 语言模型的 attention 头和 memory values 进行解释,我们可以将 GPT 的前向传递可视化为交互式流图,从而发现模型输出结果的原因和 LM 组件在模型中的作用。
May, 2023
基于一种新的梯度下降优化方法,本文探索了一个常用的视觉 - 语言模型的嵌入空间,通过 Imagenette 数据集的实验结果表明,尽管该模型达到了超过 99% 的零样本分类性能,但在系统性评估中却完全失败,使用线性近似说明了这些显著差异,并提出了一种可检测修改图像的强大方法。
Feb, 2024