Jun, 2023

训练的 Transformer 学习上下文中的线性模型

TL;DR研究注意力机制的神经网络 transformer 采用渐变流进行单个线性自注意层的训练,实现在新的预测任务中使用标记示例的测试提示时具有预测误差与测试提示分布上最佳线性预测器相竞争的能力,且在多种分布转换下具有鲁棒性。