May, 2023

透过表征镜头观察多语言机器翻译中的知识转移

TL;DR该研究认为,单纯使用翻译质量度量多语言神经机器翻译中的知识转移并不足够。为了支撑这一观点,引入了 “表示转移潜力”(RTP),用于衡量不同语言之间的表示相似性,并发现 RTP 可测量正向和负向的迁移(干扰),并且 RTP 与翻译质量变化强相关。除此之外,还研究了影响迁移的数据和语言特征,并认为多重并行重叠是一个重要而未被充分利用的特征。基于此,开发了一种新型训练方案,使用辅助相似性损失,通过利用多重并行数据鼓励表示在不同语言之间更具不变性。证明这种方法可提高多种数据和模型情况下低资源语言的翻译质量。