Jan, 2024

大型语言模型的时间箭头

TL;DR我们通过时间方向性的角度研究自回归大规模语言模型的概率建模,经验性发现这类模型在自然语言建模方面存在时间上的非对称性:在预测下一个标记和预测上一个标记时的平均对数困惑度存在差异。这种差异在多个模式(语言、模型大小、训练时间等)上既微妙又非常一致。从信息论的角度来看,理论上认为不应该存在这种差异。我们提供了一个理论框架,解释了稀疏性和计算复杂性考虑如何导致这种非对称性,并概述了我们结果带来的一些新的研究方向。