BriefGPT.xyz
Ask
alpha
关键词
attention analysis
搜索结果 - 3
从插值到外推:算术 Transformer 的完全长度概括
通过实验和注意力分析,我们研究了 transformer 模型在学习算术算法(如加法和乘法)方面的固有能力,并确定了几个实现最佳长度泛化的关键因素。我们展示了 transformer 模型能够借助有针对性的注意力偏置来推广到长长度,并引入了
→
PDF
9 months ago
揭开黑匣子:分析预训练语言模型中的注意力权重和隐藏状态在非语言任务中的应用
本文使用约束算术问题,分析了预训练语言模型中注意力权重分数和隐藏状态。我们发现模型可以以适度结构化的方式解决分层问题,类似于人类解决问题的策略,并推断出模型可以推广到长度超过训练集的序列。注意力分析发现,相对于模型的最终层,第 10 层是解
→
PDF
a year ago
预训练语言模型对源代码的结构分析
此篇论文分析了预训练语言模型,尤其是 CodeBERT 和 GraphCodeBERT 对源代码的结构性质,通过对注意力分析,词嵌入的探索和语法树归纳等方面进行全面分析,揭示出了一些深入的发现,为今后的相关研究提供了启示。
PDF
2 years ago
Prev
Next