多语言大型语言模型的多语言指导调优是否有效数据？还是仅仅是对多语言评估的不良表现？

Jun, 2024

多语言大型语言模型的多语言指导调优是否有效数据？还是仅仅是对多语言评估的不良表现？

Is It Good Data for Multilingual Instruction Tuning or Just Bad Multilingual Evaluation for Large Language Models?

Pinzhen Chen, Simon Yu, Zhicheng Guo, Barry Haddow

TL;DR大型语言模型，特别是多语言模型，设计、声明和预期为各种语言的母语用户提供服务。本文研究了这些模型的微调和评估方法可能与此意图不符的问题，提出了翻译可能引入翻译异常和缺陷的观点，并探讨了指令数据的性质是否对模型输出产生影响以及翻译的测试集能否捕捉到这种细微差别。实验结果表明，使用原生或生成式基准数据时，原生或翻译的指令数据对模型输出存在显著差异，尤其在模型性能较高时，而其他类型的测试集则无法显示这种差异。最后，我们证明正则化对于填补结构化任务中的差距是有益的，但对生成式任务则不是。

Abstract

large language models, particularly multilingual ones, are designed, claimed, and expected to cater to native speakers of varied languages. We hypothesise that the current practices of fine-tuning and evaluating

large language models multilingual models fine-tuning translation model performance

发现论文，激发创造

调查多语言指令调整：多语模型是否需要多语言指令？

通过对多种印欧语言中的大规模语言模型进行多语言指令调整数据集上的广泛研究，我们发现使用平行指令调整数据集相比单语数据集能提高跨语言指令遵循能力，还发现大规模指令调整数据集对于多语言 7B 参数模型至关重要，并进行人工注释研究以理解多语言聊天场景中基于人类和 GPT-4 的评价之间的对齐情况。

Feb, 2024

仅需一点多语言知识的多语言教学优化

通过研究多语言指令调整多语言大型语言模型的效果，我们发现跨语言转移以及将多语言示例用于指令调整对多语言指令跟随具有显著的改进作用。

Jan, 2024

从基础到会话：日语指导数据集和调整大型语言模型

我们构建了一个日本指令数据集，并将其应用于一个日本预训练基础模型。通过我们的指令数据集，对日本和英文现有模型进行了低秩调整（LoRA）。从定量和定性的角度评估了这些模型，结果证实了日本指令数据集的有效性。同时也指出，即使在相对较小的大语言模型中，通过指令调整也能提高下游任务的性能。我们的指令数据集、调整模型和实现代码已在网上公开提供。

Sep, 2023

对大型语言模型进行微调以进行翻译：杂噪语言数据对齐是否足够？

目前在使用大型语言模型（LLM）进行细调以进行翻译方面的实践中，研究发现 LLMs 在仅用 32 个训练实例进行细调后表现出很强的翻译能力，并且单向细调能够使 LLMs 实现多方向翻译，但是选择翻译方向非常重要，使用英语在目标语言侧进行细调可能导致任务误解，从而阻碍对非英语语言的翻译。在平行数据的目标语言侧引入噪声时也会出现类似的问题，尤其当目标语言在 LLM 的预训练中具有较好的表示时。相比之下，对于不充分表示的语言，噪声的影响较小。研究发现，成功对齐取决于教会模型保持 “表面” 关注，从而避免学习错误的偏差而影响翻译。

Apr, 2024

指导调优的动力学：大型语言模型中的每个能力都有自己的增长速度

基于全面的模型性能至诚态度，我们系统调查了数据量、参数规模和数据构建方法对各种能力发展的影响，并通过新的 40k 人工指导的指令数据集进行了数百个模型检查点（7b 到 33b）的全面指导优化。我们的研究揭示了三个主要发现：（i）尽管数据量和参数规模直接影响模型的整体性能，但某些能力更容易受到其增加的影响，并且可以通过有限数据进行有效训练，而某些能力对这些变化高度抵抗。（ii）人工指导的数据在效率上明显优于 GPT-4 的合成数据，并且可以随着数据量增加不断提高模型性能，而合成数据则无法达到这种效果。（iii）指令数据带来了强大的跨能力泛化性，域外数据的评估结果反映了前两个观察结果。此外，我们还展示了这些发现如何指导更高效的数据构建，从而在公共基准测试中实现实际性能的提升。

Oct, 2023

探究指令数据比例对大型语言模型的影响：基于实际应用案例的经验研究

本文探讨了指令调整对大型语言模型性能的影响，并在在线应用案例中通过增加不同比例的指令数据探究了模型的表现。结果表明，增加指令数据可改善某些任务的表现，但对于数学和代码等任务，增加数据规模的改善效果不明显。

Mar, 2023

小型语言模型能为较大语言模型选择调整训练数据

通过基于样本学习百分比的训练数据选择，我们展示了当前语言模型具备自主选择高质量训练数据的能力，这极大地降低了训练成本且达到或超过整个数据集训练的性能表现。

Feb, 2024

生成模型的自动评估与指令调优

基于指令调优的学习度量可以提供自然语言生成的自动评估，通过对多任务的联合训练，可以进一步改善性能，对未来的少量或无人标注数据的任务具有积极意义。

Oct, 2023

机器翻译文本的多语言多模态学习

研究使用机器翻译英文多模态数据作为缺少多语言数据的高质量数据是否有效，并提出了 TD-MML 框架并在 IGLUE 基准测试中展示了它的有效性。

Oct, 2022

大型语言模型的指令调优中的零 - shot 跨语言转移

在多语种环境下，我们对指令调优进行了系统研究，发现跨语言转移成功的关键在于超参数调整和足够的训练数据，虽然英文训练的大型语言模型能够生成其他语言的正确、全面和有帮助的回答，但其可信度较低且可能偶尔出现流畅性错误。

Feb, 2024