Feb, 2024

多语言转换器的潜在语言:拉马在英文中起作用吗?

TL;DR我们研究多语言语言模型在不平衡的以英语为主导的语料库上是否使用英语作为内部枢纽语言,以关键的重要性问题来理解语言模型的功能和语言偏见的起源。通过跟踪高维空间中的中间嵌入,我们发现了三个不同的阶段,这些阶段分别在 “输入空间”、“概念空间” 和 “输出空间” 中操作。关键的证据表明,抽象的 “概念空间” 更接近于英语而不是其他语言,这可能对多语言语言模型所持的偏见有重要影响。