Apr, 2022

数据分布特征驱动变压器模型中的上下文学习

TL;DR研究了 Transformer-based 模型在 in-context few-shot learning 方面的行为和处理方式,发现训练数据的分布特性是这种行为的关键,特别是数据具有大量稀有类别和爆发性分布这两个属性时;而这些属性往往是自然数据所具有的。此外发现在特定训练数据下使用 Zipfian distribution 可以支持 Transformer-based 模型同时实现 in-context 和 in-weights learning。