Oct, 2023
GradSim:基于梯度的语言分组用于有效的多语言训练
GradSim: Gradient-Based Language Grouping for Effective Multilingual Training
Mingyang Wang, Heike Adel, Lukas Lange, Jannik Strötgen, Hinrich Schütze
TL;DR通过 GradSim 方法进行语言分组,与其他相似性度量方法相比,在多个多语言基准数据集上取得最大的性能提升,与跨语言模型性能更好相关。此外,研究还发现除语言特征外,数据集的主题对语言分组也起着重要作用,而 Transformer 模型的较低层编码语言特定特征,而较高层捕捉任务特定信息。