通过奇异值转换解决变形金刚的令牌均匀性问题

Aug, 2022

通过奇异值转换解决变形金刚的令牌均匀性问题

Addressing Token Uniformity in Transformers via Singular Value Transformation

Hanqi Yan, Lin Gui, Wenjie Li, Yulan He

TL;DR本文提出使用每个 transformer 层的输出奇异值分布来描述 ' 标记一致性 ' 现象，并通过实验证明一个不太偏斜的奇异值分布可以缓解此问题并提出了新的奇异值变换函数来应用于多种语言模型并观察到语义文本相似性评估和 GLUE 任务的提高。

Abstract

token uniformity is commonly observed in transformer-based models, in which different tokens share a large proportion of similar information after going through stacked multiple self-attention layers in a transfo

token uniformity transformer-based models singular values local neighbourhood structure language models

发现论文，激发创造

视觉 Transformer 中查询 - 键交互的解析

通过奇异值分解研究图像视觉变换器中的自注意力机制，发现早期层更倾向于关注相似的标记，而后期层则更多地注意不相似的标记，这些奇异值表示的特征之间的相互作用具有可解释性，从而为理解转换器模型在处理图像时如何利用上下文和显著特征提供了新的解释角度。

Apr, 2024

稀疏通用变压器

提出了 Sparse Universal Transformer (SUT)，利用稀疏专家混合（SMoE）和基于断裂棒的动态终止机制来减少 UT 的计算复杂性，同时保持其参数效率和泛化能力。实验证明，SUT 在 WMT'14 上仅使用一半的计算和参数与强基准模型实现相同性能，并在形式语言任务（逻辑推理和 CFQ）上获得强大的泛化结果。新的终止机制还在推理过程中实现了大约 50% 的计算减少，而在形式语言任务上的性能降低非常小。

Oct, 2023

用 Sibylvariant 转换实现鲁棒的文本分类

本文提出了 sibylvariance 的概念，即在 NLP 中放宽标签约束的转换，包括 Transmutations 和 Mixture Mutations。通过实验验证发现，sibylvariances 在数据处理、缺陷检测和敌对鲁棒性等方面表现出了更好的普适性和效果。

May, 2022

无 Softmax 的线性变换器

提出 SOftmax-Free Transformer (SOFT)，其采用高斯核函数替代点积相似度，从而能够通过低秩矩阵分解逼近完整的自注意力矩阵，该模型能够明显提高现有 ViT 变体的计算效率，同时具有线性复杂度，且能够容纳更长的令牌序列，优化了准确率和复杂度之间的权衡。

Jul, 2022

卷积层的奇异值

通过对标准 2D 多通道卷积层所关联的线性变换的奇异值的表征，我们能够有效计算它们。此表征还引导我们提出了将卷积层投影到算子范数球上的算法。我们证明了这是一种有效的正则化方法；例如，它将使用 CIFAR-10 数据集和批标准化的深度残差网络的测试误差从 6.2% 提高到 5.3%。

May, 2018

SVT: 超级令牌视频变形器用于高效视频理解

本文提出了一种超词汇视频变形器（SVT），其中包含语义池模块（SPM），该模块根据它们的语义沿着视觉变换器的深度聚合潜在表示，并因此减少了视频输入中固有的冗余；方法在 Kinectics-400 和 Something-Something-V2 数据集上得到了验证，并提高了 MAE 预训练 ViT-B 和 ViT-L 的准确性以及 MViTv2-B 的准确性。

Apr, 2023

光谱滤波器、暗信号和注意力池

将中间表示投影到词汇表是转换器模型 LLMs 的一种越来越流行的解释工具，我们提出了一种定量扩展方法，并基于将词汇表嵌入和未嵌入矩阵的奇异向量进行分组来定义中间表示的谱滤波器。通过保持注意力下沉，我们发现尽管部分抑制嵌入谱的大小，预训练模型的损失可以保持较低。最后，我们发现吸引许多标记的标记的表示在谱的尾部具有较大的投影。

Feb, 2024

通过转换低秩参数化可以为张量神经网络带来鲁棒泛化能力的提升

探究 Tensor Singular Value Decomposition (t-SVD) 理论上对于 Neural Networks with t-product layers (t-NNs) 的影响，研究发现使用 exact transformed low-rank parameterization 的 t-NNs 能够提高其对于 adversarial generalization 的性能，并且即使 t-NNs 很少有完全 transformed low-rank weights，也可以通过 gradient flow (GF) 的 adversarial training 得到类似的效果，表明 transformed low-rank parameterization 在一定条件下可以提高 t-NNs 的鲁棒泛化性能。

Mar, 2023

稀疏且可转移的通用奇异向量攻击

通过截断幂迭代提供隐层雅可比矩阵的 $(p,q)$- 奇异向量的稀疏通用白盒对抗攻击，我们的方法在不同设置下使用 ImageNet 验证子集进行了分析，在仅破坏 5% 的像素并使用 256 个样本用于扰动拟合的情况下，取得了与稠密基线可比的超过 50% 欺骗率的结果。我们还展示了我们的算法允许更高的攻击强度而不影响人类解决任务的能力。此外，我们发现所构建的扰动在不同模型之间具有很高的可转移性，而不会显著降低欺骗率。我们的发现证明了最先进模型对稀疏攻击的脆弱性，并凸显了开发强大的机器学习系统的重要性。

Jan, 2024

自监督学习中均一性度量的重新思考

本研究通过分析现有的均匀性度量方法的局限性，提出了一个新的均匀性度量指标，该指标能更准确地衡量学习表示的均匀性，并在各种自监督学习方法中作为辅助损失应用时显著提升它们在下游任务中的性能。

Mar, 2024