基于变压器模型的回归混合模型的最优学习

Nov, 2023

基于变压器模型的回归混合模型的最优学习

Transformers can optimally learn regression mixture models

Reese Pathak, Rajat Sen, Weihao Kong, Abhimanyu Das

TL;DR通过研究 transformers 在混合回归问题中的表现，我们发现它可以学习到一个最优预测器，在数据生成过程中表现出低均方误差，并且在推断时做出接近最优的预测。同时，我们证明了最优预测器可以通过 transformer 实现。

Abstract

mixture models arise in many regression problems, but most methods have seen limited adoption partly due to these algorithms' highly-tailored and model-specific nature. On the other hand, →

mixture models regression transformers generative process optimal predictor

发现论文，激发创造

线性变换器是多功能的上下文学习器

线性 Transformer 能隐式地执行梯度下降算法和找到优化策略。

Feb, 2024

Transformer 对于上下文中的牛顿法能模拟多好？

利用线性注意力变换器实现逻辑回归的二阶优化算法，并仅需要对数层数量的误差即可实现 epsilon 误差。

Mar, 2024

预训练数据混合提高 Transformer 模型选择能力

在这项研究中，我们研究了 Transformer 模型，特别是大型语言模型（LLMs），它们具有在上下文中学习的显著能力，即在未见过的输入 - 输出示例的提示下执行新任务，而无需任何显式的模型训练。我们的实证结果显示变压器在选择无监督模型和在上下文中学习不同任务家族方面表现出近乎最优的能力，但当面对超出预训练数据领域的任务或功能时，我们展示了变压器的各种失败模式和其泛化能力的退化，即使是简单的外推任务也是如此。总的来说，我们的结果强调了高容量序列模型令人印象深刻的上下文学习能力可能与其预训练数据组合的覆盖范围更紧密相关，而不是创造基本泛化能力的归纳偏差。

Nov, 2023

线性注意力或许是你所需的全部（理解 Transformer 优化的）

通过对线性化浅层 transformer 模型的研究，我们对 transformer 训练的复杂性有了更深入的了解，并观察到线性化模型能够重现 transformer 训练动态的几个重要方面，因此，本文的结果表明简单的线性化 transformer 模型实际上能够是理解 transformer 优化的有价值的现实抽象。

Oct, 2023

基于 Transformer 的线性模型上下文学习中的高阶优化方法研究

Transformers 使用高阶优化方法（如迭代牛顿法）实现了上下文学习（即从示例中学习而无需参数更新），并且与梯度下降相比具有相当的收敛速度，同时在条件良好和条件差的数据上都能成功进行上下文学习。

Oct, 2023

回归 Transformer: 分子语言建模的序列回归和生成并行

本文提出 Regression Transformer（RT）方法，它是一种基于序列模型的回归模型，可用于小分子、蛋白质和化学反应的属性预测任务及其生成。该方法通过新颖的交替训练方案，使其在化学或蛋白质空间的属性驱动、局部探索中具有特殊的应用和潜在的基础模型设计方向。

Feb, 2022

训练的 Transformer 学习上下文中的线性模型

研究注意力机制的神经网络 transformer 采用渐变流进行单个线性自注意层的训练，实现在新的预测任务中使用标记示例的测试提示时具有预测误差与测试提示分布上最佳线性预测器相竞争的能力，且在多种分布转换下具有鲁棒性。

Jun, 2023

Transformer vs. MLP-Mixer: 自然语言处理问题的指数表达差距

本文分析了基于 MLP 的体系结构模拟多个不同输入之间依赖关系的表达能力，并展示了注意力机制和基于 MLP 的机制之间的指数差距，从而提供了 MLP 无法与注意力机制在 NLP 问题中竞争的理论解释。此外，文中还提出，MLP 相对于注意力机制在建模多个不同位置之间的依赖关系的能力较弱，而将智能输入排列与 MLP 体系结构结合可能不足以单独消除性能差距。

Aug, 2022

使用 Transformers 进行线性代数

通过例子，Transformer 可以学习执行数字计算。作者从基本矩阵操作到特征值分解和求逆，研究了线性代数的九个问题，并引入和讨论了四种编码方案以表示实数。通过使用随机矩阵训练的 Transformers 在所有问题上都能达到高的准确度，并且它们的模型对噪声具有鲁棒性，在训练分布之外也具有泛化能力。特别是，针对 Laplace 分布的特征值进行训练的模型对不同类别的矩阵具有泛化能力：Wigner 矩阵或具有正特征值的矩阵。反之则不成立。

Dec, 2021

Transformer 的好处：在无结构数据的线性回归任务中的上下文学习

通过进行线性回归任务的实验，研究了 transformer 结构的优势，并提供了相应的理论直觉来解释 transformer 如何从非结构化数据中进行上下文学习。特别是观察到：（1）具有两层 softmax (self-) attention 和前瞻性注意力掩码的 transformer 可以从提示中进行学习；（2）位置编码可以进一步提高性能；（3）具有较高输入嵌入维度的多头注意力优于单头注意力。

Feb, 2024