attention matrix | BriefGPT

关键词attention matrix

搜索结果 - 4

IJCAIGradformer：具有指数衰减的图变换器
本文提出了 Gradformer，一种创新地将 GT 与内在归纳偏差集成的方法，通过将指数衰减掩码应用于注意力矩阵来实现。通过这种设计，Gradformer 保留了从远程节点捕获信息的能力，同时专注于图的局部细节。广泛的实验表明，Gradf
PDF2 months ago
具有线性复杂度的交互式多头自注意力
我们通过分解提出了一种高效的多头自注意力交互方法，该方法通过建立注意力矩阵中的跨头交互来增强信息流动，并将注意力操作分解成查询和无键组件，以降低注意力矩阵的维度，从而实现更高效的注意力操作。实验结果表明，所提出的跨头交互方法在效率和性能上优
PDF4 months ago
通过预条件器解决关注度核回归问题
通过计算注意力矩阵，大型语言模型在许多任务中展现出了令人印象深刻的性能。本研究定义和研究了一种新问题，即注意力内核回归问题，并展示了如何在数据矩阵的输入稀疏时间内解决该问题。
PDF10 months ago
差分私有注意力计算
本文主要研究大型语言模型的隐私问题，提出采用差分隐私的方法对其准确计算注意力矩阵的隐私保护。通过借鉴早期的差分隐私工作，构建了可以被证明的计算方法。
PDFa year ago