BriefGPT.xyz
Ask
alpha
关键词
decoder layers
搜索结果 - 3
重新思考编码器层与解码器层之间的自适应关系
该论文探讨了编码器层和解码器层之间的适应性关系,使用 Helsinki-NLP/opus-mt-de-en 这一最先进模型将德语翻译为英语。具体方法是在编码器和解码器之间引入一个无偏差的全连接层,并对该层的权重进行不同的初始化,观察微调与重
→
PDF
2 months ago
ICCV
通过自适应稀疏锚点生成构建强大的一解码层稀疏检测器
提出了一种自适应稀疏锚点生成器(ASAG),通过预测动态锚点在补丁中而不是网格中的方式,以缓解稀疏检测器中的特征冲突问题,并使用简单有效的查询加权方法来缓解训练的不稳定性,实验结果表明,该方法在速度和准确性上取得了平衡,并优于基于稠密初始的
→
PDF
a year ago
单调多头注意力
本文提出了一种名为 Monotonic Multihead Attention(MMA)的新型注意力机制,可应用于同时翻译的机器翻译任务,并介绍了两种特定于多头注意力的新颖且可解释的延迟控制方法,与最先进的 Milk 方法相比,MMA 具有
→
PDF
5 years ago
Prev
Next