Feb, 2024
Transformer 的好处:在无结构数据的线性回归任务中的上下文学习
Benefits of Transformer: In-Context Learning in Linear Regression Tasks with Unstructured Data
Yue Xing, Xiaofeng Lin, Namjoon Suh, Qifan Song, Guang Cheng
TL;DR通过进行线性回归任务的实验,研究了 transformer 结构的优势,并提供了相应的理论直觉来解释 transformer 如何从非结构化数据中进行上下文学习。特别是观察到:(1)具有两层 softmax (self-) attention 和前瞻性注意力掩码的 transformer 可以从提示中进行学习;(2)位置编码可以进一步提高性能;(3)具有较高输入嵌入维度的多头注意力优于单头注意力。