预训练的大型语言模型使用傅里叶特征计算加法

Jun, 2024

预训练的大型语言模型使用傅里叶特征计算加法

Pre-trained Large Language Models Use Fourier Features to Compute Addition

Tianyi Zhou, Deqing Fu, Vatsal Sharan, Robin Jia

TL;DR该研究表明，预训练的大型语言模型使用傅里叶特征进行数字加法，其中 MLP 层主要利用低频特征近似答案的幅度，而注意力层主要利用高频特征进行模块化加法（例如计算答案是奇数还是偶数）。预训练对此机制至关重要，从头开始训练的模型只利用低频特征，导致准确性较低。引入预训练的标记嵌入到随机初始化的模型中可以提高其性能。总的来说，我们的分析表明，适当的预训练表示（例如傅里叶特征）可以为 Transformer 学习算法任务的精确机制。

Abstract

pre-trained large language models (LLMs) exhibit impressive mathematical reasoning capabilities, yet how they compute basic arithmetic, such as addition, remains unclear. This paper shows that pre-trained LLMs add numbers using →

pre-trained large language models fourier features mlp and attention layers pre-training algorithmic tasks

发现论文，激发创造

神经网络中的傅里叶电路：在数学推理和模块算术中释放大型语言模型的潜力

在机器学习领域中，研究神经网络和 Transformer 所采用的内部表示是一项重要挑战。本研究通过探索网络采用特定计算策略背后的原因，深入分析了样式化的单隐藏层神经网络和单层 Transformer 在解决模块化加法任务时学到的特征，并通过与实证观察相结合，为理解神经网络的计算机制作出了贡献。

Feb, 2024

傅里叶特征：让网络在低维度域中学习高频函数

通过将输入点通过简单的傅里叶特征映射传递，使得多层感知机（MLP）能够学习低维问题领域中的高频函数。研究结果对计算机视觉和图形学领域中使用 MLP 表示复杂 3D 对象和场景的最新进展提供了启示。通过神经切比雪夫核（NTK）文献中的工具，我们展示了标准 MLP 在理论和实践中都无法学习高频的结论。为了克服这种频谱偏差，我们使用傅里叶特征映射将有效的 NTK 转换为带有可调节带宽的平稳核。我们提出了一种选择问题特定的傅里叶特征的方法，极大地提高了 MLP 在与计算机视觉和图形学相关的低维回归任务中的性能。

Jun, 2020

大型语言模型中的信号处理

这篇论文介绍了将信号处理应用于大型语言模型 (LLM) 的想法，并通过将信号处理与大型语言模型的领域相结合，将它们联系起来。我们在 LLM 的每个中间激活信号中建立了经典傅里叶变换和傅里叶变换类似的可学习的时频表示之间的相似性。将每个激活信号分解为时频表示后，我们学习如何过滤和重构它们，所有组件都是从头开始学习的，以预测给定前文的下一个标记。对于类似于 GPT 架构的模型，我们的工作在相同的训练时期内通过添加极少量的额外参数实现更快的收敛，并显著提高性能。我们希望这项工作为探索嵌入在类似于 LLM 和其他神经架构信号中的信号处理的算法铺平道路。

Jun, 2024

可学习的傅里叶特征用于多维空间位置编码

本文提出了一种基于可学习的 Fourier 特征的新型位置编码方法，能够优化空间多维位置的表示、提高精度和加速收敛速度。

Jun, 2021

FinGPT-HPC: 高性能计算在金融应用中高效地预训练和微调大型语言模型

通过利用低秩结构以及量化参数，本论文提出了一种高性能的基于 GPU 的方法用于预训练和微调大型语言模型，以实现金融应用，并取得了较快的速度和高模型压缩比，同时保持了很高的准确率。

Feb, 2024

预训练词频对少样本推理的影响

本文研究预训练语言模型在数值推理方面的能力，以及该能力强弱与预训练数据中各项词语的出现频率之间的关系。研究结果表明，模型对出现频率较高的词语表现更为准确。此外，作者认为在解释理论评价结果时，应考虑到预训练数据带来的影响。

Feb, 2022

Fast-FNet: 通过高效傅里叶层加速 Transformer Encoder 模型

本研究比较了基于 Transformer 的语言模型中的注意力机制和傅里叶变换，并提出了几种采用更高效的傅里叶变换的模型架构，以提高模型效率。

Sep, 2022

基于案例或规则：Transformer 模型如何进行数学计算？

尽管现代大型语言模型在各种复杂任务中表现出色，但它们仍然难以处理一些对人类来说很简单直观的数学问题，如加法。我们通过精心设计的干预实验，确认变压器在数学问题中执行基于案例的推理，无论是否使用 scratchpad。为了解决这些问题，我们提出了一种规则遵循微调 (Rule-Following Fine-Tuning) 技术，通过在输入中提供明确的规则，指导变压器逐步背诵和遵循这些规则。通过规则遵循微调，我们成功地使在 1-5 位数加法上微调的大型语言模型能够以超过 95% 的准确率推广到 12 位数加法，比使用 scratchpad 提高了 40% 以上。这一显著的改进表明，教导大型语言模型明确使用规则有助于它们学习基于规则的推理，并在长度方面更好地实现推广。

Feb, 2024

语言模型的数值计算能力：从记忆到计算

该研究调查了语言模型在计算预测和问题解决能力方面的应用，以及其在进行算术计算和内部信息处理方面的推广能力。通过使用二进制加法和乘法作为测试样本，该研究成功地训练了一个轻量级语言模型，并进行了一系列实验以探究其外推能力和内部信息处理过程。研究结果支持了该假设，即语言模型在适当的内部表示映射后，计算发生在数值空间中，其工作类似于一个编码 - 回归 - 解码机器。

Aug, 2023

通过边缘最大化实现特征的出现：代数任务中的案例研究

理解神经网络学习到的内部表示是机器学习科学中的一个基石挑战。本文探讨了一个互补问题，即为什么网络会采用特定的计算策略，通过代数学习任务对用于这些任务的网络学到的特征进行了理论分析，证明了训练网络利用傅立叶特征进行模块化加法，以及使用与不可约群表示对应的特征来执行一般群的组合，与 Nanda 等人和 Chughtai 等人的实证观察密切一致。

Nov, 2023