Dec, 2021

使用 Transformers 进行线性代数

TL;DR通过例子,Transformer 可以学习执行数字计算。作者从基本矩阵操作到特征值分解和求逆,研究了线性代数的九个问题,并引入和讨论了四种编码方案以表示实数。通过使用随机矩阵训练的 Transformers 在所有问题上都能达到高的准确度,并且它们的模型对噪声具有鲁棒性,在训练分布之外也具有泛化能力。特别是,针对 Laplace 分布的特征值进行训练的模型对不同类别的矩阵具有泛化能力:Wigner 矩阵或具有正特征值的矩阵。反之则不成立。