EMNLPSep, 2019

探究规模化多语言 NMT 表示

TL;DR本研究使用 Singular Value Canonical Correlation Analysis(SVCCA)分析了包含 103 种语言的 NMT 模型,发现不同语言的编码器表示会基于语言相似性聚集,源语言和目标语言的表示相互依赖,并且高资源和 / 或语言相似性更强的语言在任意语言对上进行微调时更为稳健,这些结论对于跨语言转移学习非常重要,并进一步联系到现有的实证观察。