Oct, 2023

揭示 Transformer 模型中的多语言性:探索前向网络中的语言特征

TL;DR通过分析 Transformer 中的前向模块,研究表明其可以被视为一系列键值记忆,提出了关于多语言模型中神经元对不同语言的响应不平等的假设,并通过实验证实了此假设。