本文提供了一种全面的方法,可以在可扩展的方式中将各种掩码机制纳入 Transformers 架构。我们提出了一种基于拓扑的建模方法,可以生成高效的 d 维 RPE 掩码和图核心掩码。
Jul, 2021
基于 Attentiion 机制的拓扑数据分析方法用于预测深度学习模型的置信度,与传统方法相比,该方法在质量上超越现有方法,开辟了新的应用领域,但需要选择拓扑特征。
Aug, 2023
本文使用范数分析方法,证明注意力机制只是决定注意力输出的两个因素之一,通过对 BERT 和基于 Transformer 的神经机器翻译系统的范数分析,发现 BERT 没有很好地关注特殊的标记符号,并从 Transformer 的注意力机制中提取出合理的单词对齐,为理解 Transformers 的内部运作提供了洞见。
Apr, 2020
本文提出两种方法 —— 注意力展开和注意力流 —— 用于近似计算相对于输入令牌的注意力权重,以解决在 Transformer 模型中,由不同令牌产生不同的信息流动混合,使得注意力权重不可靠作为解释探针的问题。与原始注意力相比,这两种方法均具有更高的输入梯度基于消融法重要性评分相关性。
May, 2020
自注意力机制和 SVM 问题之间存在形式上的等价性及其对训练方向和全局优化的影响。
本文使用约束算术问题,分析了预训练语言模型中注意力权重分数和隐藏状态。我们发现模型可以以适度结构化的方式解决分层问题,类似于人类解决问题的策略,并推断出模型可以推广到长度超过训练集的序列。注意力分析发现,相对于模型的最终层,第 10 层是解决模型最优的层。同时,我们发现注意力分析存在局限性,特别是无法捕捉二维模式。
Jun, 2023
研究 Transformer 模型中的自注意力和语境嵌入等核心组件,提出了有效关注作为解释注意力的补充工具,展示了输入标记在模型中保持其身份,并发现身份信息主要编码在嵌入的角度中,并且随着深度的增加而逐渐降低,同时利用梯度归因方法展示了输入信息在产生语境嵌入时的强烈混合,最终展示了更好地理解和进一步研究 Transformer 模型所需的工具。
Aug, 2019
从随机示例中学习多头注意力层的算法,给出了该问题的首个非平凡上下界。
Feb, 2024
本研究提供了更深入的理论分析和经验观察来确定 Transformer 模型中 attention 权重的可辨识性,我们发现 attention 权重比我们目前的认知更可辨识。为了解决权重的不唯一问题,我们提供了一种解耦键向量和值向量之间关系的编码器层的变体,并证明了这种变体的实用性和正确性,该实验在不同的文本分类任务中得到了提供。
Jun, 2021
本文研究了 BERT 的注意力机制,探究了两个问题:如何使用注意力机制减少输入长度和如何将注意力用作条件文本生成的控制机制,并发现 BERT 的早期层对文本分类任务的关注度更高,其注意力和可以用于过滤给定序列的令牌,一定程度上减少了输入长度同时保持良好的测试准确性。
Mar, 2023