Aug, 2022

大型语言模型的归纳自然语言原理和交错标记令其具备外推能力

TL;DR本文针对当前深度学习模型在长序列外推问题上存在的挑战,探讨了通过引入逐步解释和引入位置标记符来实现大规模语言模型的外推,强调了这两种补充方法是如何实现了显著的序列外推,并突出了当前体系结构在没有显式形式指导的情况下实现有效泛化的局限性。