Dec, 2023

Transformer模型能否在上下文中学习顺序功能类别?

TL;DR我们的研究扩展了前文所提到的上下文学习在转换模型中的应用,通过探索转换模型是否能够从序列、非文本函数类数据分布中学习。我们引入了一种新颖的滑动窗口序列函数类,并使用了具有GPT-2架构的规模较小的转换模型进行实验。我们的分析表明,这些模型确实可以在训练非文本序列函数类时利用上下文学习。此外,我们通过随机的y标签序列实验发现,即使标签关联被混淆,转换模型仍保留一定的上下文学习能力。我们提供了证据表明,转换模型可以理解并推理出函数类中所编码的序列性,从而在我们提出的任务中有效学习。我们的结果还显示,性能随着标签的随机性增加而下降,尽管不及预期的程度,暗示了所学习的序列性对标签噪声具有潜在的鲁棒性。未来的研究可以探讨转换模型中的解释性头部和任务向量与上下文学习中的序列性之间的关系。我们的研究为进一步研究转换模型如何处理和感知序列数据奠定了基础。