探索多语和双语翻译模型之间的表征差异
本文研究了多语言NMT模型的解码器参数的完全或部分共享的几种方法,在仅使用WMT2019共享任务并行数据集进行训练的110个独特翻译方向上评估了完全监督和零样本翻译性能。通过使用其他测试集并重新利用最近用于无监督MT的评估方法来评估在没有黄金标准平行数据的语言对的零样本翻译性能。我们进行了不同模型翻译性能的深入评估,突出了解码器参数共享方法之间的权衡取舍。我们发现,在具有任务特定解码器参数的模型中,优于在所有任务上完全共享解码器参数的模型。
Jun, 2019
本研究使用Singular Value Canonical Correlation Analysis(SVCCA)分析了包含103种语言的NMT模型,发现不同语言的编码器表示会基于语言相似性聚集,源语言和目标语言的表示相互依赖,并且高资源和/或语言相似性更强的语言在任意语言对上进行微调时更为稳健,这些结论对于跨语言转移学习非常重要,并进一步联系到现有的实证观察。
Sep, 2019
将来自语言数据库和多语言机器翻译等任务的稀疏语言向量相结合,使用奇异向量典型相关分析方法进行研究,发现这两种方法的关联性可嵌入语言类型学和语言谱系学,实现了对多语种机器翻译的优化,而且无需大规模的多语种编排,便于新语种的测量。
Apr, 2020
本文使用XLM-R为案例研究,研究了多语言语言模型如何在维持共享多语言表示空间同时在每种语言中编码语言敏感信息,并证明了多语言语言模型沿着语言敏感和语言中性轴编码信息,使其能够提取下游任务和跨语言传递学习的各种特征。
May, 2022
本研究提供了一个大规模的实证研究,研究了多语言神经机器翻译模型的缩放特性,包括模型规模对模型性能的影响,训练混合物组成对缩放行为的作用,以及语言相似性在模型缩放中的作用。通过新颖的联合缩放定律公式,我们计算了每个语言对分配的有效参数数量,并发现了翻译多个语言到英语的模型比反向模型具有更多的任务有效参数。最终,我们利用这些发现预测了任何规模的带有任何语言加权的多语言模型的性能,显著减少了大型多语言模型中语言平衡所需的工作量。
Feb, 2023
通过对多个预训练的多语种语言模型进行研究,探究其输出中的异常维度和它们对各种跨语言语义相似性任务表现的影响。通常使用在平行资源上进行微调的sentence transformers在这些任务中表现更好,且表示更各向同性。研究人员通过不同的操作(例如消除异常维度、聚类基于同性等操作)来改进多语种表示。
Jun, 2023
通过研究多语言模型的语言学表示,我们发现针对低资源语言,以某个语言家族或地理位置为重点且由这些语言使用者构建的社区中心模型在区分同一语言家族的语言方面表现更好,有助于理解多语言模型的问题并提供改进方法。
Oct, 2023
本研究解决了仅解码器模型在多语言机器翻译中的应用缺乏深入研究的问题。通过对一系列不同规模的仅解码器模型进行实验,我们提出了一种与大语言模型类似的扩展规律,但发现该规律对过大模型或不同数据分布的泛化存在困难。此外,我们研究了不同的扩展方法,并指出扩展模型的深度和宽度对测试损失的影响虽然相似,但对模型效率的影响不同。
Sep, 2024
本研究针对多语言预训练中语言平衡的问题,提出了一种新的规模法则,重点从单一语言转向语言家族,以简化多语言规模分析。我们发现,每个语言家族的测试交叉熵损失仅由其采样比例决定,从而推导出性能与数据集大小、模型规模和采样比例之间的幂律关系,提供了一种高效的多语言语言模型训练方法。
Oct, 2024