Nov, 2023

变压器中新出现的情境学习的瞬时性质

TL;DRtransformer 神经网络虽然没有明确训练用于上下文学习,但其仍具备令人惊讶的上下文学习能力。然而,研究发现 ICL 在训练过程中常常是短暂的,且 ICL 和 in-weights learning 之间存在竞争关系,使用 L2 正则化可能提供更持久的 ICL。