BriefGPT.xyz
大模型
Ask
alpha
关键词
multihead attention
搜索结果 - 3
基于浅层未训练多头注意力网络的类脑语言处理
通过研究大型语言模型,该论文揭示了语言模型与人类大脑的相似性,重点分析了架构组件中的分词策略和多头注意力以及需求确定性的关键因素,最终提出了一种高度与人类大脑和行为对齐的模型。
PDF
11 days ago
单调多头注意力
本文提出了一种名为 Monotonic Multihead Attention(MMA)的新型注意力机制,可应用于同时翻译的机器翻译任务,并介绍了两种特定于多头注意力的新颖且可解释的延迟控制方法,与最先进的 Milk 方法相比,MMA 具有
→
PDF
5 years ago
指针生成网络:更抽象的摘要生成
该研究提出了一种基于多头注意力机制、指针 dropout 和新的损失函数的方法,用于促进摘要的提取,同时保持类似 ROUGE 分数,实现了相对较高的新颖 N-gram 和句子生成率。
PDF
5 years ago
Prev
Next