对齐更长时间:一种简单但难以打败的教学微调基准
大语言模型(LLMs)在单个查询中难以遵循一系列指令,从而可能忽略或错误解释其中的一部分,这影响了它们在需要多个中间步骤的复杂问题(例如多语言(翻译然后回答)和多模态(字幕然后回答)任务)中的性能。我们通过使用开源 LLMs(如 LLaMA-2 70B 和 Mixtral-8x7B)进行实证验证。针对当今数据中顺序指令的稀缺性,我们提出了顺序指令调整,这是一种简单而有效的策略,用于自动增加指令调整数据并赋予 LLMs 执行多个顺序指令的能力。通过探索 Alpaca 等现有数据集中的交替指令和各种中间任务,我们发现,顺序指令调整模型在涉及推理、多语言和多模态能力的下游任务中始终优于传统的指令调整基线。为了进一步阐明我们的技术,我们分析了敌对中间文本、未见任务、提示语言的表达、任务数量和提示长度对顺序指令调整的影响。我们希望这种方法能为复杂任务的指令调整开辟新的研究途径。
Mar, 2024
利用 LongIns benchmark dataset 在长背景下评估大型语言模型的推理性能及上下文窗口长度对其表现的影响。
Jun, 2024
通过对小规模多样化的 fine-tune 样本进行研究,本文发现 1k-6k 个指令 fine-tuning 样本的子集足以在传统 NLP 基准测试和基于模型的评估上取得良好性能,并展示了将教科书形式和开放式问答 fine-tuning 数据集混合的优化方法。
Nov, 2023
使用 LongForm 数据集进行指导调整机制可以提高语言模型的泛化能力,该数据集通过 LLMs 生成一组多样的人类撰写的文档和相应的指导语句,支持长文本生成,并在文本生成、多语言指令识别等任务上表现出色。
Apr, 2023
指令微调方法能够增强大型语言模型在未知任务上的零样本功能,并对其性能和稳健性进行了评估,发现在处理陌生指令时性能显著下降,而对于关系抽取指令的稳健性较问答指令更差。
Aug, 2023
研究通过将指令调整的大型语言模型知识压缩到较小的模型来降低资源消耗,经证实 可以在 15 个不同的 NLP 测试基准上与竞争对手基线相媲美,而体积约小 10 倍。
Apr, 2023
我们介绍了一系列支持高达 32,768 个令牌的有效上下文窗口的长上下文 LLMs。通过从 Llama 2 开始的持续预训练,我们的模型系列是在更长的训练序列和上采样长文本的数据集上构建的。我们在语言模型、合成上下文探索任务以及广泛的研究基准上进行了广泛的评估。在研究基准上,我们的模型在大多数常规任务上均取得了一致的改进,并在长上下文任务上相对于 Llama 2 取得了显著的提升。值得注意的是,通过一种耗时效率高且不需要人工注释长指导数据的指令调整过程,70B 变体已经超过了 gpt-3.5-turbo-16k 在一套长上下文任务中的整体性能。除了这些结果,我们对我们方法的各个组成部分进行了深入分析。我们深入研究了 Llama 的位置编码,并讨论了它在建模长依赖性方面的局限性。我们还研究了预训练过程中各种设计选择的影响,包括数据混合和序列长度的训练课程 - 我们的消融实验表明,在预训练数据集中有大量长文本并不是达到强大性能的关键,我们从经验上验证了长上下文持续预训练相对于从头开始的长序列预训练更高效且同样有效。
Sep, 2023
本文研究了使用指令驱动数据 fine-tune 的 LLMa 模型在写作场景下的性能,结果表明持续地使用写作数据对 LLMa 进行微调,可以显著提高它在写作任务上的表现,并为未来 LlMa 在特定场景中的微调提供了洞见。
May, 2023
扩展大型语言模型以有效处理长篇背景需要依据相似长度的输入序列进行指导微调,本文提出了 LongAlign 框架,包括长篇背景对齐的指导数据、训练和评估方法,通过 Self-Instruct 构建了包含各种长篇背景任务的数据集,采用打包和排序批处理策略加快有差异长度分布的数据的监督微调,引入了损失权重方法以平衡打包训练过程中不同序列对损失的贡献,并引入了 LongBench-Chat 测试基准来评估对 1 万至 10 万字查询的指导跟进能力,实验证明 LongAlign 在长篇背景任务中性能比现有的大型语言模型框架提升了 30%,同时保持了对短语、通用任务的熟练处理能力。
Jan, 2024