Aug, 2024
质量还是数量?在低资源翻译中适应大型语言模型的数据规模和多样性
Quality or Quantity? On Data Scale and Diversity in Adapting Large
Language Models for Low-Resource Translation
TL;DR本文探讨了将大型语言模型(LLMs)适应低资源翻译所需的条件,重点分析了平行数据的重要性和监督微调中的多样性对性能的影响。研究发现,平行数据在预训练和微调过程中对低资源LLM-MT至关重要,而多样性往往导致干扰而非迁移。这些发现具有普遍性,对提升低资源语言的多语种LLM-MT模型具有重要价值。