多语言微调中语言特定类别不平衡的影响理解

ACLFeb, 2024

多语言微调中语言特定类别不平衡的影响理解

Understanding the effects of language-specific class imbalance in multilingual fine-tuning

Vincent Jung, Lonneke van der Plas

TL;DR我们研究了现实生活中多语种分类数据集中常见的一种不平衡现象：标签在不同语言之间的分布不均。我们通过证据表明，在这种不平衡的数据集上微调基于 Transformer 的 Large Language Model（LLM）会导致性能下降、隐空间中语言间的差异更加明显以及非信息性特征的促进。我们修改了传统的类别加权方法，通过为每种语言单独计算类别权重来缓解这些不利影响。这些结果引起人们对多语种微调中语言特定类别不平衡带来的负面影响以及模型在执行任务时依赖语言分离的认识。

Abstract

We study the effect of one type of imbalance often present in real-life multilingual classification datasets: an uneven distribution of labels across languages. We show evidence that fine-tuning a transformer-bas

imbalance multilingual classification transformer-based large language model class weighing language-specific class imbalance

发现论文，激发创造

语言失衡可以促进跨语言泛化

多语种模型的研究指出，语言不平衡是跨语言泛化的一个新的驱动因素，在实验中观察到，在训练中存在一种主要语言可以提升较不频繁的语言的性能，同时加强模型在不同语言间的表示对齐，同时本研究还提出了一些训练方案来改善克隆语言的性能。

Apr, 2024

多语言神经机器翻译的平衡训练

该论文提出一种利用数据得分器来自动学习如何加权训练数据以最大化所有测试语言性能的方法，优于传统启发式方法，并提供对优化语言的灵活控制。

Apr, 2020

多语言 BERT 的语言特异性和微调的影响

对多语言 BERT（mBERT）进行 fine-tuning，研究其语言特定知识和语言无关知识之间的关系。实验结果表明，fine-tuning 导致模型的表征能力重新组织，增强了语言无关表征，牺牲了语言特定表征。

Sep, 2021

面对数据不平衡的多语言学习中的顺序问题

本文从实证角度研究了多任务学习的优化动态，特别关注了在存在显著数据不平衡的多个任务集合中所涉及的优化过程。我们提出了一种简单但有效的方法，即在高资源任务上进行预训练，然后在高 / 低资源任务的混合中进行微调。通过彻底的实证研究和分析，我们证明了该方法相对于标准静态加权的性能权衡概况实现了持续改进。我们分析了在什么样的数据条件下该方法适用，并在神经机器翻译（NMT）和多语言语言建模中实证了其改进效果。

Dec, 2023

揭示了细调的大型语言模型的泛化能力

这篇论文研究了大型语言模型（LLMs）和它们经过微调后的变体之间的差异，尤其关注微调对 LLMs 内在泛化能力的影响。通过在不同任务和数据集上进行广泛的实验，研究发现微调应用于生成任务和分类任务的模型在泛化到不同领域和任务时表现出不同的行为，并且在生成任务的微调中整合上下文学习策略可以增强模型的泛化能力。通过这一系统性研究，旨在为 LLMs 的微调实践做出有价值的贡献。

Mar, 2024

神经机器翻译对多语言分词训练中的语言不平衡的鲁棒性有多强？

本研究分析研究了多语言经过语言不平衡的训练语料库的分词器，并发现在训练过程中，UNK 率和接近字符级别的特征对于下游任务的性能具有预警作用。同时，该研究还将分词器训练的语言采样与模型训练的采样区分开，并指出模型对后者更为敏感。

Apr, 2022

大型语言模型在翻译中的多语言程度如何？

通过在平行文本上对大型语言模型 (LLM) 进行微调，新的机器翻译范式已被证明能够胜过使用大量平行数据以监督方式训练的专用翻译系统，然而，对于大规模多语言机器翻译，是否需要对少数语言对进行专门的模型微调仍然不清楚。本研究通过对 TOWER 系列语言模型在 132 个来自多语言平行数据 FLORES-200 的翻译任务上进行实证评估，发现翻译微调即使对于零样本语言平均而言也会提高翻译质量，但其影响因所涉及的语言对而异。这些结果呼吁进一步研究以有效实现大规模多语言翻译。

May, 2024

通过慢速和快速调整以提高跨语言迁移的性能

本文分析了多语言预训练语言模型的微调过程，找出性能差距何时发生以及哪些网络权重对整体性能影响最大，并提出一种名为 Fine-tuning slow and fast 的方法来解决这些问题，实验结果表明该方法优于基准方法。

May, 2023

对大型语言模型进行微调以进行翻译：杂噪语言数据对齐是否足够？

目前在使用大型语言模型（LLM）进行细调以进行翻译方面的实践中，研究发现 LLMs 在仅用 32 个训练实例进行细调后表现出很强的翻译能力，并且单向细调能够使 LLMs 实现多方向翻译，但是选择翻译方向非常重要，使用英语在目标语言侧进行细调可能导致任务误解，从而阻碍对非英语语言的翻译。在平行数据的目标语言侧引入噪声时也会出现类似的问题，尤其当目标语言在 LLM 的预训练中具有较好的表示时。相比之下，对于不充分表示的语言，噪声的影响较小。研究发现，成功对齐取决于教会模型保持 “表面” 关注，从而避免学习错误的偏差而影响翻译。

Apr, 2024

如何实现平衡高效的多语言模型：既保护用户数据，又保持模型性能

本文提出了一种基于教师 - 学生知识蒸馏的新型多语种训练技术，利用平衡（子采样）数据将单语教师模型的知识蒸馏到一个多语种学生中，可以提高自然语言处理系统中低资源语言的表现。

Oct, 2022