Jul, 2023

基于结构化注意力的上下文演示规模化

TL;DR提出了一个用于上下文学习的更好的架构设计 SAICL(Structured Attention for In-Context Learning),该架构通过将全注意力替换为专为上下文学习设计的结构化注意力机制,并消除个体示范之间的不必要依赖性,同时使模型对示范的排列具有不变性。在元训练框架中评估 SAICL,并显示出与全注意力相当或更好的性能,同时获得最多 3.4 倍的推理加速。SAICL 还始终优于每个示范独立处理的强基线 Fusion-in-Decoder(FiD)。最后,由于其线性特性,我们证明 SAICL 可以轻松扩展到数百个示范,并实现连续的性能增益。