揭开变形金刚：基于注意力权重的数据恢复理论方法

Oct, 2023

揭开变形金刚：基于注意力权重的数据恢复理论方法

Unmasking Transformers: A Theoretical Approach to Data Recovery via Attention Weights

Yichuan Deng, Zhao Song, Shenghao Xie, Chiwun Yang

TL;DR通过注意力权重和输出，我们介绍了一个目标在恢复输入数据的算法，从而解决深度学习模型中安全和隐私问题，并揭示了模型设计中的潜在漏洞。

Abstract

In the realm of deep learning, transformers have emerged as a dominant architecture, particularly in natural language processing tasks. However, with their widespread adoption, concerns regarding the security and

transformers security privacy attention weights data recovery

发现论文，激发创造

从块 - Toeplitz 矩阵到图上的微分方程：迈向可扩展遮蔽 Transformer 的普适理论

本文提供了一种全面的方法，可以在可扩展的方式中将各种掩码机制纳入 Transformers 架构。我们提出了一种基于拓扑的建模方法，可以生成高效的 d 维 RPE 掩码和图核心掩码。

Jul, 2021

通过关注矩阵的拓扑分析评估变压器预测的不确定性

基于 Attentiion 机制的拓扑数据分析方法用于预测深度学习模型的置信度，与传统方法相比，该方法在质量上超越现有方法，开辟了新的应用领域，但需要选择拓扑特征。

Aug, 2023

注意力不仅仅是权重：用向量范数分析 Transformer

本文使用范数分析方法，证明注意力机制只是决定注意力输出的两个因素之一，通过对 BERT 和基于 Transformer 的神经机器翻译系统的范数分析，发现 BERT 没有很好地关注特殊的标记符号，并从 Transformer 的注意力机制中提取出合理的单词对齐，为理解 Transformers 的内部运作提供了洞见。

Apr, 2020

变形金刚中的注意力流量量化

本文提出两种方法 —— 注意力展开和注意力流 —— 用于近似计算相对于输入令牌的注意力权重，以解决在 Transformer 模型中，由不同令牌产生不同的信息流动混合，使得注意力权重不可靠作为解释探针的问题。与原始注意力相比，这两种方法均具有更高的输入梯度基于消融法重要性评分相关性。

May, 2020

变压器作为支持向量机

自注意力机制和 SVM 问题之间存在形式上的等价性及其对训练方向和全局优化的影响。

Aug, 2023

揭开黑匣子：分析预训练语言模型中的注意力权重和隐藏状态在非语言任务中的应用

本文使用约束算术问题，分析了预训练语言模型中注意力权重分数和隐藏状态。我们发现模型可以以适度结构化的方式解决分层问题，类似于人类解决问题的策略，并推断出模型可以推广到长度超过训练集的序列。注意力分析发现，相对于模型的最终层，第 10 层是解决模型最优的层。同时，我们发现注意力分析存在局限性，特别是无法捕捉二维模式。

Jun, 2023

Transformer 中的可识别性

研究 Transformer 模型中的自注意力和语境嵌入等核心组件，提出了有效关注作为解释注意力的补充工具，展示了输入标记在模型中保持其身份，并发现身份信息主要编码在嵌入的角度中，并且随着深度的增加而逐渐降低，同时利用梯度归因方法展示了输入信息在产生语境嵌入时的强烈混合，最终展示了更好地理解和进一步研究 Transformer 模型所需的工具。

Aug, 2019

可证明学习多头注意力层

从随机示例中学习多头注意力层的算法，给出了该问题的首个非平凡上下界。

Feb, 2024

文本分类更具识别性与性能同样优秀的 Transformer

本研究提供了更深入的理论分析和经验观察来确定 Transformer 模型中 attention 权重的可辨识性，我们发现 attention 权重比我们目前的认知更可辨识。为了解决权重的不唯一问题，我们提供了一种解耦键向量和值向量之间关系的编码器层的变体，并证明了这种变体的实用性和正确性，该实验在不同的文本分类任务中得到了提供。

Jun, 2021

通过注意力值压缩输入长度和生成文本

本文研究了 BERT 的注意力机制，探究了两个问题：如何使用注意力机制减少输入长度和如何将注意力用作条件文本生成的控制机制，并发现 BERT 的早期层对文本分类任务的关注度更高，其注意力和可以用于过滤给定序列的令牌，一定程度上减少了输入长度同时保持良好的测试准确性。

Mar, 2023