BriefGPT.xyz
Ask
alpha
关键词
self-attention patterns
搜索结果 - 2
ACL
GlobEnc: 在 Transformer 中使用整个编码器层来量化全局标记归因
本文提出了一种新的 token 指定分析方法,将编码器块中的所有组件结合起来并在各层中进行聚合,通过广泛的定量和定性实验,证明我们的方法可以产生忠实和有意义的全局 token 指定,引入几乎每个编码器组件在本地 (单层) 和全局 (整个模型
→
PDF
2 years ago
EMNLP
使用 Transformer 引导自监督学习的注意力机制
该文提出了一种利用双向 Transformer 实现高效自监督学习的简单而有效的技术,该方法利用辅助损失函数引导注意力头符合自注意力特征,并可以适用于不同的预训练目标,实验证明该方法相对于基线模型更快收敛同时在下游任务中性能更好,在低资源环
→
PDF
4 years ago
Prev
Next