ACLMay, 2023

自回归语言模型隐藏状态的令牌分解分析模型预测

TL;DR本研究提出了对于近现代 Transformer 架构的自回归语言模型的一种准确的每个初始输入 token 的线性分解,并使用其定义概率分布,以分离出特定的输入 token 对于后续单词序列的影响;回归实验表明,基于 Transformer 的语言模型主要依赖于搭配的联想,其次是基于语言学素材的综合推断,例如句法依赖关系和指代关系,以确定下一个单词的概率。