Oct, 2022

Transformers 在存储信息的上下文和权重方面存在不同的泛化能力

TL;DR本文研究 Transformer 模型的归纳偏差,发现预训练模型在处理稀少类似规则的数据时更倾向于基于规则的归纳,而在无监督学习上表现出基于例子的归纳偏差。