Dec, 2023

一个基于机制的数据依赖和突发学习的在情境分类任务的基础

TL;DRTransformer 模型表现出上下文学习:基于输入序列中的示例,准确预测对新查询的响应。研究讨论了训练数据分布和架构方面哪些因素支持上下文学习和传统的查询 - 输出关系学习。研究还提出了在简化数据集上训练的最小关注网络模型,阐明了上下文学习受到诱导头突然出现的驱动。该研究建议,基于注意力的网络的明显转折是由于实现上下文学习所必需的特定多层操作链引起的。