BriefGPT.xyz
Ask
alpha
关键词
mlp and attention layers
搜索结果 - 1
预训练的大型语言模型使用傅里叶特征计算加法
该研究表明,预训练的大型语言模型使用傅里叶特征进行数字加法,其中 MLP 层主要利用低频特征近似答案的幅度,而注意力层主要利用高频特征进行模块化加法(例如计算答案是奇数还是偶数)。预训练对此机制至关重要,从头开始训练的模型只利用低频特征,导
→
PDF
a month ago
Prev
Next