遵循指导中的长度限制
在对指令微调的研究中,最长指令的选择应该是任何研究的默认基线,因为经证实此方法能够在 LLMs 中提高性能,保持与对事实的知识进行测试的 OpenLLM 基准的竞争力。
Feb, 2024
使用包含多个约束条件的指令来训练大型语言模型,能提高其理解复杂指令,特别是对于低复杂性水平的指令,甚至可以推广到超出领域约束的组合,同时提出了获取和利用有效训练数据的方法,并通过广泛实验验证了方法在总体性能、训练效率和泛化能力方面的有效性。
Apr, 2024
传统句子压缩模型通常在考虑约束时面临能力限制,为弥补这一差距,我们提出了基于指令的压缩方法,利用大型语言模型的零 - shot 任务解决能力通过指令考虑长度约束。通过转换传统句子压缩数据集,我们发现目前的大型语言模型在控制压缩文本长度方面仍面临挑战,为解决这一问题,我们提出了一种称为 “长度提示” 的方法,将附加长度信息无需外部资源地融入指令中。实验结果和分析表明,应用长度提示显著提高了基于指令的压缩方法在零 - shot 和微调设置中的性能,而无需进行任何模型修改。
Jun, 2024
扩展大型语言模型以有效处理长篇背景需要依据相似长度的输入序列进行指导微调,本文提出了 LongAlign 框架,包括长篇背景对齐的指导数据、训练和评估方法,通过 Self-Instruct 构建了包含各种长篇背景任务的数据集,采用打包和排序批处理策略加快有差异长度分布的数据的监督微调,引入了损失权重方法以平衡打包训练过程中不同序列对损失的贡献,并引入了 LongBench-Chat 测试基准来评估对 1 万至 10 万字查询的指导跟进能力,实验证明 LongAlign 在长篇背景任务中性能比现有的大型语言模型框架提升了 30%,同时保持了对短语、通用任务的熟练处理能力。
Jan, 2024
通过自动评估流程,本文提出的评估度量与人工评估结果吻合,验证了最近的开源大型语言模型在按照指令生成结尾方面的性能接近于 GPT-3.5。
Jun, 2024
最近的大型语言模型在指令遵循的冲突情况下进行了调查和基准测试,对比了最流行的专有模型和不同大小的开源模型。实验表明,较大的模型在遵循指令方面表现最佳,并且对内部和上下文指令具有覆盖能力。然而,在进行长上下文的缩放时需要保持与困惑度边缘的显著缓冲区,以保持指令遵循能力。此外,提高指令遵循与遵循给定安全过滤器或指南的能力相互冲突,因此我们认为处理安全可信人工智能的最有效方法应该是在语言模型之外进行。
Feb, 2024
现代大型语言模型具备跟随长而复杂的指令以完成各种用户任务的能力。本研究引入了数据集 FollowIR,其中包含了严格的指令评估基准以及用于帮助信息检索模型学习更好地遵循真实世界指令的训练集。我们的结果表明现有的检索模型未能正确地使用指令,只是简单地使用关键词,并且难以理解长篇信息。然而,我们展示了信息检索模型学习遵循复杂指令的可能性:我们的新模型 FollowIR-7B 在我们的训练集上经过微调后有显著的改进(超过 13%)。
Mar, 2024
大语言模型(LLMs)在单个查询中难以遵循一系列指令,从而可能忽略或错误解释其中的一部分,这影响了它们在需要多个中间步骤的复杂问题(例如多语言(翻译然后回答)和多模态(字幕然后回答)任务)中的性能。我们通过使用开源 LLMs(如 LLaMA-2 70B 和 Mixtral-8x7B)进行实证验证。针对当今数据中顺序指令的稀缺性,我们提出了顺序指令调整,这是一种简单而有效的策略,用于自动增加指令调整数据并赋予 LLMs 执行多个顺序指令的能力。通过探索 Alpaca 等现有数据集中的交替指令和各种中间任务,我们发现,顺序指令调整模型在涉及推理、多语言和多模态能力的下游任务中始终优于传统的指令调整基线。为了进一步阐明我们的技术,我们分析了敌对中间文本、未见任务、提示语言的表达、任务数量和提示长度对顺序指令调整的影响。我们希望这种方法能为复杂任务的指令调整开辟新的研究途径。
Mar, 2024
通过实验证明,Instruction Modelling 能够提高语言模型的性能,特别是在指令调整数据集不充足、指令长度与输出长度不匹配以及减少过拟合情况下,对低资源场景中的语言模型进行指令调整提供了实用指南。
May, 2024