transformer self-attention sublayer | BriefGPT

关键词transformer self-attention sublayer

搜索结果 - 1

ACL有效的注意力揭示解释性
该研究使用 GLUE 任务和 BERT，比较了标准注意力和有效注意力矩阵对于解释语言建模预训练和语言特征的差异，并发现有效注意力更加相关于最终任务的解决，推荐使用有效注意力更贴近设计目标。
PDF3 years ago