Feb, 2024

Transformer 的好处:在无结构数据的线性回归任务中的上下文学习

TL;DR通过进行线性回归任务的实验,研究了 transformer 结构的优势,并提供了相应的理论直觉来解释 transformer 如何从非结构化数据中进行上下文学习。特别是观察到:(1)具有两层 softmax (self-) attention 和前瞻性注意力掩码的 transformer 可以从提示中进行学习;(2)位置编码可以进一步提高性能;(3)具有较高输入嵌入维度的多头注意力优于单头注意力。