multi-head attention | BriefGPT

关键词multi-head attention

搜索结果 - 88

ICML优化的分组查询注意机制用于变形金刚
提出了一种激活信息驱动的方法 AsymGQA，将 MHA 不对称地分组为 GQA，并在模型性能方面取得了较好的表现。该方法解决了 GQA 在模型性能和硬件效能之间的权衡问题。
PDF13 days ago
跳跃层注意力：在 Transformer 中连接抽象和详细依赖关系
该研究论文通过引入 Skip-Layer Attention (SLA) 方法在 Transformer 模型中实现直接关注非相邻层之间的依赖关系，提升模型捕捉高层抽象特征和底层细节之间的依赖，扩展了 Transformer 的功能，实现了
PDF17 days ago
BlockPruner：大型语言模型的细粒度剪枝
我们提出了一种名为 BlockPruner 的新型无需训练的结构化修剪方法，通过定位多头注意力和多层感知机块中的冗余实现更精细的修剪，实验证明，与现有方法相比，BlockPruner 在各种下游任务中实现了更精确和有效的修剪。
PDF19 days ago
分析特洛伊 BERT 模型的多头注意力
该研究探讨了多头注意力在 Transformer 模型中的行为，特别关注在情感分析背景下良性和特洛伊模型之间的差异。特洛伊攻击导致模型在干净输入上表现正常，但在包含预定义触发器的输入上出现误分类。我们对特洛伊和良性模型中的注意力头函数进行了
PDF22 days ago
DHA：通过自适应头融合从 Transformer 检查点学习分离头注意力
通过分析注意力冗余，设计了一种解耦式头部注意力机制（Decoupled-Head Attention，DHA），达到性能和效率之间的更好平衡，通过逐步线性融合类似头部参数来将 Multi-Head Attention（MHA）模型转换为 D
PDFa month ago
多头注意力自动剪枝
基于通道相似性和修剪指示器的多头注意力机制自动修剪方法，通过平衡各头通道的移除比例和通道信息的重新加权来降低计算复杂性，并在图像分类任务中表现出超越先前的高效模型和修剪方法的准确性。
PDFa month ago
时间的重要性：通过强大的用户停留时间注入来增强预训练新闻推荐模型
该论文提出了两种新的可靠的停留时间注入策略，即停留时间权重（DweW）和停留时间感知（DweA），通过对停留时间的详细分析，改进了有效用户点击，并结合初始行为输入构建了更可靠的用户偏好，从而增强了模型准确识别用户偏好的能力。在使用 MSN
PDFa month ago
ICML通过动态组合的多头注意力机制改进 Transformer
提出了一种动态可组合的多头注意力 (DCMHA) 架构，通过动态组合注意力头解决了多头注意力中的问题，并显著提升了模型的表达能力，达到了与具有大约 1.7-2.0 倍计算量的模型相当的性能水平。
PDF2 months ago
Transformer 技巧：去除跳过机制的权重
使用等效的版本适用于多查询关注和分组查询关注的无跳过变压器，从而降低其计算和内存复杂性。
PDF3 months ago
使用 URL 的上下文特征，顺序深度学习模型在检测网络钓鱼网站方面的性能
本研究使用深度学习模型（如多头注意力、双向长短期记忆网络）针对钓鱼网站进行检测，并证明多头注意力和双向长短期记忆网络模型在准确率、召回率和 F1 得分方面优于其他深度学习算法。
PDF3 months ago
LATTE：用于高效 Transformer 的可训练阈值头部低精度近似注意力
本研究提出了具备可训练阈值的低精度近似注意力机制（LATTE），通过使用具备可调整阈值的头部过滤器、低精度点积和计算重用机制，LATTE 能够减少多头注意力模型的计算量，并通过对阈值的优化实现性能和计算之间的平衡。实验结果表明，在 NLP
PDF3 months ago
基于多头注意力的深度多示例学习
MAD-MIL 是一个基于多头注意力机制的深度多实例学习模型，针对数字病理学中弱监督的整张切片图像分类而设计。在模型复杂度简化的同时，MAD-MIL 能够与先进模型如 CLAM 和 DS-MIL 取得竞争性结果，并在 MNIST-BAGS
PDF3 months ago
CHAI: 集群化头部注意力用于高效的 LLM 推断
基于大型语言模型的多头注意力机制的高冗余性，提出了一种新的聚类头自注意力机制 (CHAI)，能够在运行时显著降低模型的存储和计算需求，从而减少内存需求 21.4% 和推理时间延迟最多 1.73 倍。
PDF4 months ago
自动驾驶中视觉变形器研究综述：现状和未来发展方向
该论文综述探讨了视觉 Transformer 模型在自动驾驶中的应用，重点研究了自我注意力、多头注意力和编码器 - 解码器架构等基本概念，并比较了它们在目标检测、分割、行人检测、车道检测等应用中的架构优点和局限性，最后展望了视觉 Trans
PDF4 months ago
建筑如何影响预训练语言模型的基本能力？基于 FFN-Wider Transformer 模型的案例研究
通过分析，我们发现多头注意力（一种组合函数）对预训练语言建模的贡献比例是影响基础能力的关键因素。FFN-Wider Transformers 降低了这种组合函数的贡献比例，导致基础能力下降。我们通过实验证实了这一点，并提出了组合增强结构（C
PDF4 months ago
LongHeads：多头注意力暗地里是一个长上下文处理器
通过解锁多头注意力的潜力，我们提出了一个无需额外训练的框架 LongHeads，以增强大语言模型（LLMs）在处理长篇输入方面的能力，通过选择和关注重要的上下文块来确保各个头能够有效地处理训练长度内的被关注的标记，同时不同层的不同头可以共同
PDF5 months ago
Transformer 的好处：在无结构数据的线性回归任务中的上下文学习
通过进行线性回归任务的实验，研究了 transformer 结构的优势，并提供了相应的理论直觉来解释 transformer 如何从非结构化数据中进行上下文学习。特别是观察到：（1）具有两层 softmax (self-) attentio
PDF5 months ago
多头注意力在上下文线性回归中的优势
我们在研究中心比较了 transformer 中 softmax attention 在上下文学习和线性回归任务中的性能，理论分析表明具有较大嵌入维度的多头注意力优于单头注意力，当上下文示例的数量增加时，使用单头 / 多头注意力的预测损失为
PDF5 months ago
Sliceformer：在判别任务中将多头注意力变得简单如排序
我们提出了 Sliceformer 作为 Transformer 的替代模型，通过简单的切片排列操作实现了高效的计算和普适的效果，同时可以有效抑制数据表示中的模式坍缩风险。
PDF8 months ago
PTSR：图像超分辨率的补丁翻译器
提出了一种基于自注意机制的无卷积操作的转化器和生成对抗网络（GAN）网络 —— 补丁翻译器用于图像超分辨率，实验证明该网络在超分辨率上的性能得到了显著提升。
PDF8 months ago