从数量到质量:通过自导数据选择提高LLM性能以进行指令调整
本文介绍了一种名为Low Training Data Instruction Tuning (LTD Instruction Tuning)的方式,从减少数据使用、优化任务性能、优化指令调整类型和使用任务特定模型等方面,降低大型语言模型(LLMs)指令调整的数据使用,提高数据利用效率。实验结果表明,可以使用少于原始数据集的0.5%来训练任务特定的模型,并且相较于使用完整的任务相关数据训练的模型,性能可提升2%。
May, 2023
基于全面的模型性能至诚态度,我们系统调查了数据量、参数规模和数据构建方法对各种能力发展的影响,并通过新的40k人工指导的指令数据集进行了数百个模型检查点(7b到33b)的全面指导优化。我们的研究揭示了三个主要发现:(i)尽管数据量和参数规模直接影响模型的整体性能,但某些能力更容易受到其增加的影响,并且可以通过有限数据进行有效训练,而某些能力对这些变化高度抵抗。(ii)人工指导的数据在效率上明显优于GPT-4的合成数据,并且可以随着数据量增加不断提高模型性能,而合成数据则无法达到这种效果。(iii)指令数据带来了强大的跨能力泛化性,域外数据的评估结果反映了前两个观察结果。此外,我们还展示了这些发现如何指导更高效的数据构建,从而在公共基准测试中实现实际性能的提升。
Oct, 2023
通过引入自我演变机制DiverseEvol,我们提出了一种标签高效的指令调整方法,该方法允许模型自己主动采样同样或更有效的子集来改善自身性能,而无需人类干预或更先进的LLMs。在选择子集时,我们的数据采样技术的关键在于增强所选子集的多样性,使模型根据当前的嵌入空间选择与任何现有数据点都不同的新数据点。在三个数据集和基准测试中进行的大量实验证明了DiverseEvol的有效性。我们的模型在原始数据集的不到8%的训练基础上,与在完整数据上进行微调相比,性能保持或提高。我们还提供实证证据分析了多样性在指令数据中的重要性以及迭代方案与一次性采样的区别。我们的代码可以在此https URL公开获取。
Nov, 2023
通过自动修订样本来增强指令数据集的质量,CoachLM训练自人工专家修订过的样本,并将数据集中高质量样本的比例从17.7%提高到78.9%。CoachLM通过平均29.9%的提升改善了指令调优的语言学习模型的指令跟随能力,并在华为的LLM数据管理系统中实现了高达20%的效率提升。
Nov, 2023
本文介绍了一种高效且多功能的方法,用于从微调数据集中选择多样且高质量的指令跟踪数据。我们首先通过数据集的增强和扩展增加了更多多样性和高质量的数据,然后依次应用多样性压缩和质量压缩来筛选所需的数据集。实验结果表明,即使只有有限数量的高质量指令数据,LLMs在自然语言理解任务和代码生成任务中仍能保持稳定的性能,特别是在某些情况下超过了在明显更大的指令数据集上训练的模型。
Dec, 2023
在对指令微调的研究中,最长指令的选择应该是任何研究的默认基线,因为经证实此方法能够在LLMs中提高性能,保持与对事实的知识进行测试的OpenLLM基准的竞争力。
Feb, 2024
介绍了一种有效的数据增强技术,通过将复杂指令分解为简单的子组件、修改并重构它们为新的变体,以在训练和评估大型语言模型的指令追踪精度时保留原始指令的上下文和复杂性,并引入可变性。使用该方法开发了DeMoRecon数据集来精细调整和评估大型语言模型,在我们的指令追踪基准和常用基准上,发现使用DeMoRecon进行精细调整的大型语言模型性能显著提升。
Jun, 2024
本研究针对大型语言模型(LLMs)评估的灵活性和可解释性不足的问题,提出了一种名为TICK(针对指令评估与检查清单)的全自动评估协议。通过生成特定指令的高质量检查清单,研究表明该方法显著提高了LLM判断与人类偏好的准确性,并展示了结构化自我改进在提升生成质量方面的潜力。
Oct, 2024
本研究旨在解决大型语言模型(LLMs)在持续预训练与指令微调之间的平衡问题,以保持最新的数据和准确的指令遵循能力。研究发现,通过持续预训练可以有效提升基础模型及其指令微调模型的指令遵循能力,而无需额外的指令数据和微调,展示了高计算效率的潜力。
Oct, 2024