Lucky 52: 需要多少语言来指导大规模语言模型的微调?
通过与只使用英文进行微调的模型相比较,研究发现只使用三种语言进行多语种微调可以显著提高模型在生成式任务上的跨语言转移能力,而在高度结构化的任务上影响较小。
Dec, 2023
通过对多种印欧语言中的大规模语言模型进行多语言指令调整数据集上的广泛研究,我们发现使用平行指令调整数据集相比单语数据集能提高跨语言指令遵循能力,还发现大规模指令调整数据集对于多语言 7B 参数模型至关重要,并进行人工注释研究以理解多语言聊天场景中基于人类和 GPT-4 的评价之间的对齐情况。
Feb, 2024
通过在平行文本上对大型语言模型 (LLM) 进行微调,新的机器翻译范式已被证明能够胜过使用大量平行数据以监督方式训练的专用翻译系统,然而,对于大规模多语言机器翻译,是否需要对少数语言对进行专门的模型微调仍然不清楚。本研究通过对 TOWER 系列语言模型在 132 个来自多语言平行数据 FLORES-200 的翻译任务上进行实证评估,发现翻译微调即使对于零样本语言平均而言也会提高翻译质量,但其影响因所涉及的语言对而异。这些结果呼吁进一步研究以有效实现大规模多语言翻译。
May, 2024
在本研究中,我们旨在调查专用模型需要多少标记样本才能达到优越性能,同时考虑结果方差。我们通过观察提示、上下文学习、微调和指令调整的行为,确定它们在增加不同复杂度任务的标记训练样本数量时的平衡点,发现专用模型通常只需要少量样本(100-1000)就能达到或超越通用模型。与此同时,所需的标记数据量强烈依赖于任务复杂度和结果方差。
Feb, 2024
目前在使用大型语言模型(LLM)进行细调以进行翻译方面的实践中,研究发现 LLMs 在仅用 32 个训练实例进行细调后表现出很强的翻译能力,并且单向细调能够使 LLMs 实现多方向翻译,但是选择翻译方向非常重要,使用英语在目标语言侧进行细调可能导致任务误解,从而阻碍对非英语语言的翻译。在平行数据的目标语言侧引入噪声时也会出现类似的问题,尤其当目标语言在 LLM 的预训练中具有较好的表示时。相比之下,对于不充分表示的语言,噪声的影响较小。研究发现,成功对齐取决于教会模型保持 “表面” 关注,从而避免学习错误的偏差而影响翻译。
Apr, 2024
通过对小规模多样化的 fine-tune 样本进行研究,本文发现 1k-6k 个指令 fine-tuning 样本的子集足以在传统 NLP 基准测试和基于模型的评估上取得良好性能,并展示了将教科书形式和开放式问答 fine-tuning 数据集混合的优化方法。
Nov, 2023
通过参数高效微调能够提高大语言模型的性能,而无需大量的资源和计算。对多语言评估的先前研究表明,英语和其他语言在性能上存在很大差距。此外,开源模型和较大规模的语言模型之间也存在差距。微调是弥合差距、使语言模型更加公平的有效方法。本研究通过对合成多语言指示微调数据上进行 LLaMA-7B 和 Mistral-7B 模型的微调,以评估其对模型在涵盖 23 种语言的五个下游任务上的性能影响。此外,我们还在低秩适应的等级和量化值上进行了实验,以确定它们对下游性能的影响并发现较高的等级和量化值有益于低资源语言。我们发现通过参数高效微调较小的开源模型有时可以弥合这些模型和较大模型性能之间的差距,但对英语性能有所降低。我们还发现微调有时可以提高低资源语言的性能,但在高资源语言上性能可能会下降。
Jan, 2024
通过对英语为主的生成大语言模型进行调整,以适应资源匮乏的语言,并评估了不同的策略,包括持续训练、指导微调、任务特定微调和词汇扩展。结果表明,持续训练改进了语言理解能力,任务特定微调一般提高了下游任务的性能,但扩展词汇未带来实质性的益处。此外,在适应时,较大的模型通过少样本微调可以提高任务性能,而多语言模型在适应时表现不如单语言模型。
May, 2024
本文针对文本摘要领域的多语言学习,对三种多语言调优策略(共五个模型)进行广泛的实证评估,实验覆盖 45 种语言,旨在为多语言调优策略设计提供参考。实验结果在 XL-Sum 数据集上取得了新的最佳表现。
Dec, 2022