BriefGPT.xyz
Ask
alpha
关键词
attention heads
搜索结果 - 44
BERT 中的 Attention 头是否跟踪句法依赖关系?
本研究探讨预训练变形金刚语言模型中的注意头在多大程度上隐含捕获了句法依赖关系,并使用两种方法提取每层 / 头 attention 权重中的隐含依赖关系,比较它们与基准 UD 树的差异。结果表明,这些模型有一些跟踪特定依赖类型的专业注意头,但
→
PDF
5 years ago
EMNLP
基于分块的自注意力机制实现长文本理解
BlockBERT 为一个高效的 BERT 模型,引入了稀疏块结构,以更好的建模长距离依赖关系,在语言模型预训练和基准问答数据集上进行了实验。与 RoBERTa 模型相比,BlockBERT 可以节省大约 27.8% 的推理时间,并具有可比
→
PDF
5 years ago
EMNLP
树形 Transformer:将树形结构集成到自注意力中
使用自注意力机制来诱导目标树结构,从而产生更好的语言模型,更可解释的注意力分数,并达到实验效果的 Transformer 变种 (Tree Transformer) 的提出。
PDF
5 years ago
SIGIR
Transformer 注意力头对抽象摘要提供透明度吗?
通过分析 transformer 中 attention heads 的分布,我们探讨了并提出一种方法来评估 Transformer 模型特定 attention distributions 的依赖程度,从而讨论了使用注意分布作为可解释性手
→
PDF
5 years ago
Prev
Next