面对数据不平衡的多语言学习中的顺序问题

Dec, 2023

面对数据不平衡的多语言学习中的顺序问题

Order Matters in the Presence of Dataset Imbalance for Multilingual Learning

Dami Choi, Derrick Xin, Hamid Dadkhahi, Justin Gilmer, Ankush Garg...

TL;DR本文从实证角度研究了多任务学习的优化动态，特别关注了在存在显著数据不平衡的多个任务集合中所涉及的优化过程。我们提出了一种简单但有效的方法，即在高资源任务上进行预训练，然后在高 / 低资源任务的混合中进行微调。通过彻底的实证研究和分析，我们证明了该方法相对于标准静态加权的性能权衡概况实现了持续改进。我们分析了在什么样的数据条件下该方法适用，并在神经机器翻译（NMT）和多语言语言建模中实证了其改进效果。

Abstract

In this paper, we empirically study the optimization dynamics of multi-task learning, particularly focusing on those that govern a collection of tasks with significant data imbalance. We present a simple yet effe

multi-task learning optimization dynamics data imbalance pre-training fine-tuning

发现论文，激发创造

多语言神经机器翻译的平衡训练

该论文提出一种利用数据得分器来自动学习如何加权训练数据以最大化所有测试语言性能的方法，优于传统启发式方法，并提供对优化语言的灵活控制。

Apr, 2020

神经机器翻译的数据排序模式：实证研究

本文通过实证研究不同训练数据排序方法对神经机器翻译模型性能的影响，结果表明基于预训练模型的困惑度得分对训练数据进行预排序的方法表现最佳，在每轮训练中优于默认方法随机洗牌训练数据。

Sep, 2019

多语言微调中语言特定类别不平衡的影响理解

我们研究了现实生活中多语种分类数据集中常见的一种不平衡现象：标签在不同语言之间的分布不均。我们通过证据表明，在这种不平衡的数据集上微调基于 Transformer 的 Large Language Model（LLM）会导致性能下降、隐空间中语言间的差异更加明显以及非信息性特征的促进。我们修改了传统的类别加权方法，通过为每种语言单独计算类别权重来缓解这些不利影响。这些结果引起人们对多语种微调中语言特定类别不平衡带来的负面影响以及模型在执行任务时依赖语言分离的认识。

Feb, 2024

多语种翻译中的鲁棒优化与数据不平衡问题

本文提出了一种曲率感知任务缩放算法（CATS），该算法通过适应性地重新缩放来自不同任务的梯度，并且可以在考虑到数据不平衡的情况下，指导多语言训练进入曲率较低的邻域，并在所有语言中取得统一较低的损失，并且针对常见的数据失衡问题，CATS 可以有效提高多语言优化的效果，并在低资源性能方面取得了一致的改进，而不会损害高资源的性能表现。

Apr, 2021

如何实现平衡高效的多语言模型：既保护用户数据，又保持模型性能

本文提出了一种基于教师 - 学生知识蒸馏的新型多语种训练技术，利用平衡（子采样）数据将单语教师模型的知识蒸馏到一个多语种学生中，可以提高自然语言处理系统中低资源语言的表现。

Oct, 2022

战略数据排序：通过课程学习提升大型语言模型性能

通过课程学习的数据中心培训策略，根据数据的不同指标进行排序可以提高大型语言模型的性能，而无需增加模型大小或数据集容量，从而解决大型语言模型培训中的可扩展性挑战。

May, 2024

多语言神经机器翻译的 Pareto 前沿

本研究旨在探究在多语言神经机器翻译中，给定方向的泛化性能如何随着其采样比例的变化而改变。我们发现，当训练语料具有数据不平衡时，标量化会导致多任务折衷前沿偏离传统的 Pareto 前沿。最后，我们基于观察结果提出了双重幂律，用于预测 MNMT 中的独特性能折衷前沿，并将 MNMT 中的采样比例选择问题制定为基于双重幂律的优化问题，该方法在实验中表现优异。

Apr, 2023

分布式稳健多语言机器翻译

本论文提出了一种新的 MNMT 学习目标，基于分布式鲁棒优化，使得这个方法在多种语言对上都可以均衡地表现，并展示了如何实际优化大型翻译语料库。经过广泛实验，证明我们的方法在平均和单个语言翻译表现方面始终优于强基线方法在多对一和一对多的翻译设置下。

Sep, 2021

数据混合的高效实现：语言模型预训练的双变量缩放法

本研究提出了一种统一的缩放定律 BiMix，准确地模拟了数据数量和混合比例的双变量缩放行为，通过使用低成本的代理策略优化数据筛选，以提高训练效率。实验证据表明，基于熵驱动的无需训练的数据混合方法可以实现与更消耗资源的方法相媲美甚至更好的性能。我们希望这些定量研究结果能为高效语言建模的进一步研究和开发提供启示。

May, 2024

预训练语言模型在低资源文本上的泛化和稳定调优

基于注意力引导的权重混合和双层优化框架，我们提出了一种用于预训练语言模型的微调方法，以解决在低资源数据集上微调模型时的不稳定性和过拟合问题，在广泛的实验中验证了该方法的有效性和优越性。

Mar, 2024