Jun, 2024

预训练的大型语言模型使用傅里叶特征计算加法

TL;DR该研究表明,预训练的大型语言模型使用傅里叶特征进行数字加法,其中 MLP 层主要利用低频特征近似答案的幅度,而注意力层主要利用高频特征进行模块化加法(例如计算答案是奇数还是偶数)。预训练对此机制至关重要,从头开始训练的模型只利用低频特征,导致准确性较低。引入预训练的标记嵌入到随机初始化的模型中可以提高其性能。总的来说,我们的分析表明,适当的预训练表示(例如傅里叶特征)可以为 Transformer 学习算法任务的精确机制。