Oct, 2023

GradSim:基于梯度的语言分组用于有效的多语言训练

TL;DR通过 GradSim 方法进行语言分组,与其他相似性度量方法相比,在多个多语言基准数据集上取得最大的性能提升,与跨语言模型性能更好相关。此外,研究还发现除语言特征外,数据集的主题对语言分组也起着重要作用,而 Transformer 模型的较低层编码语言特定特征,而较高层捕捉任务特定信息。