Oct, 2023
揭示 Transformer 模型中的多语言性:探索前向网络中的语言特征
Unveiling Multilinguality in Transformer Models: Exploring Language Specificity in Feed-Forward Networks
Sunit Bhattacharya, Ondrej Bojar
TL;DR通过分析 Transformer 中的前向模块,研究表明其可以被视为一系列键值记忆,提出了关于多语言模型中神经元对不同语言的响应不平等的假设,并通过实验证实了此假设。