May, 2024

关于共现、位置信息和噪音结构的作用:从无结构数据的训练中产生上下文学习

TL;DR通过建模共现信息使用经典语言模型如连续词袋模型,我们理论上证明并实证验证了不监督训练对于上下文学习的产生方式,同时我们提出了一些 ICL 失败的情况并给出了理论解释。