所有路都通罗马？探究 Transformers 表征的不变性

May, 2023

所有路都通罗马？探究 Transformers 表征的不变性

All Roads Lead to Rome? Exploring the Invariance of Transformers' Representations

Yuxin Ren, Qipeng Guo, Zhijing Jin, Shauli Ravfogel, Mrinmaya Sachan...

TL;DR研究了 transformer models 中关于 representation 的可靠性问题，提出了双射假设和一种基于可逆神经网络的模型 BERT-INN，用来更有效地对齐不同模型的 representation spaces

Abstract

transformer models bring propelling advances in various NLP tasks, thus inducing lots of interpretability research on the learned representations

transformer models interpretability research representations bijection hypothesis bert-inn

发现论文，激发创造

从砖头到桥梁：增强潜在空间通信的不变性乘积

直接将一组不变性直接融入表示中，构建一种不变分量的产品空间，旨在解锁合并、拼接和重用不同神经模块的应用，并观察到分类和重建任务中的一致潜在相似性和下游性能改进。

Oct, 2023

视觉转换器嵌入空间的引人注目的等效结构

基于视觉转换器作为例子，通过分析和系统实验，我们展示了表示空间由大型分段线性子空间和局部正常空间组成，存在着不同输入具有相同表示和在视觉上难以区分的不同表示的输入。这些经验结果进一步通过基础模型的局部方向估计来验证。因此，得到的表示会改变下游模型的结果，并且这样的模型容易过度泛化且具有有限的迁移能力。

Jan, 2024

理解 CNN：利用 INN 解释深度表示及不变性

为了了解神经网络不透明的黑盒表示法，本研究提出了一种基于 INNs 的方法来恢复任务特定和已学习不变量，将其变成易于理解的语义概念，并在不影响性能的情况下进行后期解释。

Aug, 2020

探索变形金刚的归纳偏差：从无限的视角

在无限过参数化的高斯过程极限中，我们研究了 Transformer 中的归纳偏置，并认为 Transformer 更倾向于对序列空间中的更多置换对称函数有偏见。通过展示对称群的表示理论的运用，我们可以在数据集对令牌之间的置换对称时给出定量分析预测。我们介绍了一个简化的 Transformer 模块，并解决了模型的极限，包括对学习曲线和网络输出的准确预测。我们证明在常见的设置中，可以导出关于上下文长度可学习性的一个紧密的边界的缩放定律。最后，我们认为 WikiText 数据集确实具有一定的置换对称度。

Feb, 2024

利用 Transformer 作为元学习器获取隐含神经表征

使用 Transformer 作为超网络构建内隐神经表示，避免信息瓶颈和优化低效性，并在 2D 图像回归和 3D 对象视图合成等任务和领域中展示其有效性。

Aug, 2022

通过逆向相对投影的潜空间转换

通过对相对空间的角度保持相对表示的可逆性进行形式化，并假设神经模型中解码器模块的尺度不变性，我们将两种方法结合起来，通过相对空间获得潜在空间转换的新方法。通过在各种架构和数据集上进行大量实验证实了我们的尺度不变性假设，并证明了我们方法在潜在空间转换中的高准确性。我们还将我们的方法应用于任意预训练文本和图像编码器及其分类器之间的零射缝，甚至跨模态。通过组合性，我们的方法具有促进模型实际重用的显著潜力。

Jun, 2024

表示形式作为语言：一个信息论解释的框架

通过一种新颖的可解释性方法，该论文使用信息论度量量化了神经模型对输入的表示的结构化程度，从而预测模型的泛化能力，并发现模型的代表性和噪声强度有关。此外，研究还研究了模型大小对表示空间结构的影响。

Jun, 2024

语义对齐下的潜在空间翻译

通过简单的转换，我们的研究展示了神经网络模型中学习到的表示可以在不同的预训练网络之间进行转化，从而有效地连接编码器和解码器，并实现在多模态设置下的出色分类性能。

Nov, 2023

大型 Transformer 模型的隐藏表示的几何学

研究表明，transformers 在蛋白质语言任务和图像重建任务中的表示以非常相似的方式演化，从而呈现出数据流形在隐藏层中的几何和统计特性，而数据流形的语义结构在第一阶段触发。基于这些观察结果，建议使用内在维度作为无监督代理，以确定下游学习任务更合适的层次。

Feb, 2023

迷宫解决变形器中的结构化世界表示

该研究通过解迷宫的方式，探究了小型 Transformer 模型的内部行为和结构化内部表示，其中发现了仅通过一个标记的残差流可以线性解码恢复整个迷宫的证据，以及每个标记的学习嵌入具有空间结构，并且通过识别称为 “邻接头” 的注意力头揭示了追踪路径的线路。

Dec, 2023