Oct, 2024
傅里叶头:帮助大语言模型学习复杂概率分布
Fourier Head: Helping Large Language Models Learn Complex Probability
Distributions
TL;DR本研究解决了大语言模型在非语言领域建模时存在的连续结构捕获能力不足的问题。提出了一种基于傅里叶级数构建的神经网络层,能够替代传统线性层,从而更好地学习连续数据分布。本研究的主要发现是,傅里叶头能显著提高决策变换器在Atari游戏中的表现,并增强时间序列预测模型的预测性能。