Apr, 2022
数据分布特征驱动变压器模型中的上下文学习
Data Distributional Properties Drive Emergent In-Context Learning in Transformers
Stephanie C.Y. Chan, Adam Santoro, Andrew K. Lampinen, Jane X. Wang, Aaditya Singh...
TL;DR研究了 Transformer-based 模型在 in-context few-shot learning 方面的行为和处理方式,发现训练数据的分布特性是这种行为的关键,特别是数据具有大量稀有类别和爆发性分布这两个属性时;而这些属性往往是自然数据所具有的。此外发现在特定训练数据下使用 Zipfian distribution 可以支持 Transformer-based 模型同时实现 in-context 和 in-weights learning。