attention matrices | BriefGPT

关键词attention matrices

搜索结果 - 5

COLING在 LLMs 中检测概念抽象
我们提出了一种新颖的方法来检测大型语言模型中的名词抽象。从心理学动机的名词对集合开始，我们使用表示上位词关系的表面模式，并分析 BERT 生成的注意力矩阵。通过比较结果和两组反事实情况，我们展示了可以检测到抽象机制中的上位词关系，这不能仅仅
PDF2 months ago
可扩展的 Transformer 用于 PDE 替代模型
本文提出了一种基于轴向分解核积分的可学习投影运算符的因式化变压器模型 Factorized Transformer，该模型使用一维域将输入函数分解为多个子函数，用于计算基于实例的内核。我们演示了该模型在 256 x 256 网格上模拟 2D
PDFa year ago
基于预训练和微调语言模型的对话中的话语结构提取
本文研究基于 Pre-trained Language Models (PLMs) 的注意力矩阵构建对话结构的方法，提出了一种无监督和半监督的方法来定位和利用 PLMs 中的语篇信息，并在 STAC 语料库上获得了令人鼓舞的结果。
PDFa year ago
Scatterbrain: 统一稀疏和低秩注意力逼近
通过将局部敏感哈希（locality sensitive hashing，LSH）和核特征映射（kernel feature map）结合，我们提出了 Scatterbrain 方法来统一稀疏 Attention 和低秩 Attention
PDF3 years ago
利用稀疏变换器生成长序列
本文介绍了一种称为 Sparse Transformers 的神经网络架构，该架构通过稀疏的注意力矩阵因式分解和其他一些技术，可以更有效地处理长序列等任务，并在 Enwik8，CIFAR-10，和 ImageNet-64 等基准数据集上创造
PDF5 years ago