多语言神经机器翻译的平衡训练
本研究分析研究了多语言经过语言不平衡的训练语料库的分词器,并发现在训练过程中,UNK 率和接近字符级别的特征对于下游任务的性能具有预警作用。同时,该研究还将分词器训练的语言采样与模型训练的采样区分开,并指出模型对后者更为敏感。
Apr, 2022
本论文提出了一种新的 MNMT 学习目标,基于分布式鲁棒优化,使得这个方法在多种语言对上都可以均衡地表现,并展示了如何实际优化大型翻译语料库。经过广泛实验,证明我们的方法在平均和单个语言翻译表现方面始终优于强基线方法在多对一和一对多的翻译设置下。
Sep, 2021
本文旨在解决源语言文本资源匮乏时,因失衡的训练数据导致无监督神经机器翻译系统(UNMT)性能低下的问题,提出基于自训练机制的 UNMT 系统,实验证明了其比传统 UNMT 系统的性能更好。
Apr, 2020
本文提出了一种基于教师 - 学生知识蒸馏的新型多语种训练技术,利用平衡(子采样)数据将单语教师模型的知识蒸馏到一个多语种学生中,可以提高自然语言处理系统中低资源语言的表现。
Oct, 2022
本文提出了一种曲率感知任务缩放算法(CATS),该算法通过适应性地重新缩放来自不同任务的梯度,并且可以在考虑到数据不平衡的情况下,指导多语言训练进入曲率较低的邻域,并在所有语言中取得统一较低的损失,并且针对常见的数据失衡问题,CATS 可以有效提高多语言优化的效果,并在低资源性能方面取得了一致的改进,而不会损害高资源的性能表现。
Apr, 2021
本文从实证角度研究了多任务学习的优化动态,特别关注了在存在显著数据不平衡的多个任务集合中所涉及的优化过程。我们提出了一种简单但有效的方法,即在高资源任务上进行预训练,然后在高 / 低资源任务的混合中进行微调。通过彻底的实证研究和分析,我们证明了该方法相对于标准静态加权的性能权衡概况实现了持续改进。我们分析了在什么样的数据条件下该方法适用,并在神经机器翻译(NMT)和多语言语言建模中实证了其改进效果。
Dec, 2023
提出了一个名为 Bi-ACL 的框架,旨在解决多语言神经机器翻译中的数据不平衡和表示退化问题。该框架使用仅目标侧单语数据和双语词典,结合双向自编码器和双向对比学习模块,并使用在线约束波束搜索和课程学习采样策略。实验表明,该方法对长尾语言和高资源语言都更有效,并且可以在零 - shot 场景中在不同领域和语言之间转移知识。
May, 2023
本文介绍了一种能够动态调整训练数据使用的方法 MultiUAT,用于多语料机器翻译,通过信任的干净数据确定模型的不确定性,实现数据平衡,经过实验证明,MultiUAT 在多语言和多领域环境下都比现有方法表现更好。
Sep, 2021
我们研究了现实生活中多语种分类数据集中常见的一种不平衡现象:标签在不同语言之间的分布不均。我们通过证据表明,在这种不平衡的数据集上微调基于 Transformer 的 Large Language Model(LLM)会导致性能下降、隐空间中语言间的差异更加明显以及非信息性特征的促进。我们修改了传统的类别加权方法,通过为每种语言单独计算类别权重来缓解这些不利影响。这些结果引起人们对多语种微调中语言特定类别不平衡带来的负面影响以及模型在执行任务时依赖语言分离的认识。
Feb, 2024