单语或多语指导调优：哪个更好的羊驼

Sep, 2023

单语或多语指导调优：哪个更好的羊驼

Monolingual or Multilingual Instruction Tuning: Which Makes a Better Alpaca

Pinzhen Chen, Shaoxiong Ji, Nikolay Bogoychev, Barry Haddow, Kenneth Heafield

TL;DR通过使用多语言调优方法研究基础大型语言模型（LLMs）的代价效益，检验了 LLMs 对于单语和多语环境中查询的有效性，并发现多语调优对于 LLMs 在多语环境中的鲁棒性是关键。研究表明，在有限的计算资源情况下，仅使用有限数据集对多语调优模型进行训练，与为每种语言训练单语模型相比具有相同强大的性能。这些发现可作为扩展语言支持的指南，通过使用约束的计算资源进行指令调优。

Abstract

Foundational large language models (LLMs) can be instruction-tuned to develop open-ended question-answering capability, facilitating applications such as the creation of AI assistants. While such efforts are ofte

large language models instruction-tuning multilingual tuning open-ended question-answering language support

发现论文，激发创造

调查多语言指令调整：多语模型是否需要多语言指令？

通过对多种印欧语言中的大规模语言模型进行多语言指令调整数据集上的广泛研究，我们发现使用平行指令调整数据集相比单语数据集能提高跨语言指令遵循能力，还发现大规模指令调整数据集对于多语言 7B 参数模型至关重要，并进行人工注释研究以理解多语言聊天场景中基于人类和 GPT-4 的评价之间的对齐情况。

Feb, 2024

通过翻译跟随示范提升面向指导训练大型语言模型的跨语言能力

通过在语言模型中建立语义对齐，该研究提出了一种在英语以外的语言中增强指令调整型大型语言模型（It-LLMs）的方法，通过交叉语言指导和翻译指导演示，提高语义对齐，并在六种不同语言上的多语言问答基准测试中验证其方法的效果。

Aug, 2023

仅需一点多语言知识的多语言教学优化

通过研究多语言指令调整多语言大型语言模型的效果，我们发现跨语言转移以及将多语言示例用于指令调整对多语言指令跟随具有显著的改进作用。

Jan, 2024

通过跨语言知识传递向羊驼教授一门新语言

该研究探索了以成本效益的方法来适应新的低资源语言的事先训练的大型语言模型（LLMs），特别关注爱沙尼亚语。通过利用 Llama 2 模型，我们研究了将跨语言指令调整与额外的单语预训练相结合的影响。我们的结果表明，即使是相对较少的额外单语预训练再加上跨语言指令调整也能显著提高爱沙尼亚语的结果。此外，我们展示了从高质量的英文指令到爱沙尼亚语的跨语言知识转移，从而提高了常识推理和多轮对话能力。我们的最佳模型 extsc {Llammas} 是首个适用于爱沙尼亚语的开源指令跟随 LLM。此外，我们发布了爱沙尼亚的第一个通用任务指令数据集 Alpaca-est。这些贡献标志着发展适用于爱沙尼亚语的开源 LLMs 的初步进展。

Apr, 2024

构建准确的基于翻译的语言感知 LLMS 的指导调优

通过两阶段微调算法，改进了大型语言模型（LLMs）遵循翻译指示的能力，特别是翻译方向信息，从而有效降低了错位翻译比率（平均降低 53.3%），提高了翻译质量（平均增加 5.7 SacreBLEU 和 16.4 BLEURT）。

Mar, 2024

LlamaTurk：为低资源语言适应开源生成型大语言模型

通过对英语为主的生成大语言模型进行调整，以适应资源匮乏的语言，并评估了不同的策略，包括持续训练、指导微调、任务特定微调和词汇扩展。结果表明，持续训练改进了语言理解能力，任务特定微调一般提高了下游任务的性能，但扩展词汇未带来实质性的益处。此外，在适应时，较大的模型通过少样本微调可以提高任务性能，而多语言模型在适应时表现不如单语言模型。

May, 2024

大型语言模型在翻译中的多语言程度如何？

通过在平行文本上对大型语言模型 (LLM) 进行微调，新的机器翻译范式已被证明能够胜过使用大量平行数据以监督方式训练的专用翻译系统，然而，对于大规模多语言机器翻译，是否需要对少数语言对进行专门的模型微调仍然不清楚。本研究通过对 TOWER 系列语言模型在 132 个来自多语言平行数据 FLORES-200 的翻译任务上进行实证评估，发现翻译微调即使对于零样本语言平均而言也会提高翻译质量，但其影响因所涉及的语言对而异。这些结果呼吁进一步研究以有效实现大规模多语言翻译。

May, 2024

使用顺序指令对大型语言模型进行微调

大语言模型（LLMs）在单个查询中难以遵循一系列指令，从而可能忽略或错误解释其中的一部分，这影响了它们在需要多个中间步骤的复杂问题（例如多语言（翻译然后回答）和多模态（字幕然后回答）任务）中的性能。我们通过使用开源 LLMs（如 LLaMA-2 70B 和 Mixtral-8x7B）进行实证验证。针对当今数据中顺序指令的稀缺性，我们提出了顺序指令调整，这是一种简单而有效的策略，用于自动增加指令调整数据并赋予 LLMs 执行多个顺序指令的能力。通过探索 Alpaca 等现有数据集中的交替指令和各种中间任务，我们发现，顺序指令调整模型在涉及推理、多语言和多模态能力的下游任务中始终优于传统的指令调整基线。为了进一步阐明我们的技术，我们分析了敌对中间文本、未见任务、提示语言的表达、任务数量和提示长度对顺序指令调整的影响。我们希望这种方法能为复杂任务的指令调整开辟新的研究途径。

Mar, 2024

Okapi: 指令调整的多语言大型语言模型及基于人类反馈的强化学习

Okapi 是第一个基于 RLHF 进行多语言指导调整的系统，引入 26 种不同语言的指导和回应排序数据，以促进未来多语言 LLM 研究的实验和发展。

Jul, 2023

多语种是多语种 LLM

通过对 101 种语言进行全面分析，评估了大型语言模型（LLMs）的多语言能力，并将具有相似特征的语言分类为四个不同的象限，为调整这些语言提供可操作的指导。通过深入研究每个象限，阐明了其分类背后的理由，并提出了改进 LLMs 的多语言性能的具体属性。实验结果表明，现有的 LLMs 具有超出预期的多语言能力，并且通过关注每个象限中存在的不同属性，我们可以显著提高 LLMs 的多语言表现。

Nov, 2023