探究指令数据比例对大型语言模型的影响:基于实际应用案例的经验研究
本文介绍了一种名为Low Training Data Instruction Tuning (LTD Instruction Tuning)的方式,从减少数据使用、优化任务性能、优化指令调整类型和使用任务特定模型等方面,降低大型语言模型(LLMs)指令调整的数据使用,提高数据利用效率。实验结果表明,可以使用少于原始数据集的0.5%来训练任务特定的模型,并且相较于使用完整的任务相关数据训练的模型,性能可提升2%。
May, 2023
INSTRUCTEVAL是一个全面的评估套件,旨在评估大型语言模型在指令调整下的表现,其结果表明,指令数据的质量是影响模型性能的最重要因素,并且从问题解决能力和与人类价值观的一致性方面,这些模型还有很大的提升空间。
Jun, 2023
该研究探索了指令调整语言模型的最新进展,并在一系列开放式指令遵循数据集上进行了评估,提出了一种具有实际应用价值的指令调整数据集,为未来的研究工作提供了帮助。
Jun, 2023
对于指令调优(IT)领域的研究进行了概述,它是增强和可控大型语言模型(LLMs)能力的关键技术。该研究系统回顾了IT的一般方法论、IT数据集的构建、IT模型的训练以及不同模态、领域和应用的应用,并分析了影响IT结果的因素(例如,指令输出的生成、指令数据集的大小等)。还审查了IT存在的潜在问题以及对其的批评,指出了现有策略的不足之处,并提出了一些有益的研究方向。
Aug, 2023
我们构建了一个日本指令数据集,并将其应用于一个日本预训练基础模型。通过我们的指令数据集,对日本和英文现有模型进行了低秩调整(LoRA)。从定量和定性的角度评估了这些模型,结果证实了日本指令数据集的有效性。同时也指出,即使在相对较小的大语言模型中,通过指令调整也能提高下游任务的性能。我们的指令数据集、调整模型和实现代码已在网上公开提供。
Sep, 2023
基于全面的模型性能至诚态度,我们系统调查了数据量、参数规模和数据构建方法对各种能力发展的影响,并通过新的40k人工指导的指令数据集进行了数百个模型检查点(7b到33b)的全面指导优化。我们的研究揭示了三个主要发现:(i)尽管数据量和参数规模直接影响模型的整体性能,但某些能力更容易受到其增加的影响,并且可以通过有限数据进行有效训练,而某些能力对这些变化高度抵抗。(ii)人工指导的数据在效率上明显优于GPT-4的合成数据,并且可以随着数据量增加不断提高模型性能,而合成数据则无法达到这种效果。(iii)指令数据带来了强大的跨能力泛化性,域外数据的评估结果反映了前两个观察结果。此外,我们还展示了这些发现如何指导更高效的数据构建,从而在公共基准测试中实现实际性能的提升。
Oct, 2023
通过基于样本学习百分比的训练数据选择,我们展示了当前语言模型具备自主选择高质量训练数据的能力,这极大地降低了训练成本且达到或超过整个数据集训练的性能表现。
Feb, 2024
通过对多种印欧语言中的大规模语言模型进行多语言指令调整数据集上的广泛研究,我们发现使用平行指令调整数据集相比单语数据集能提高跨语言指令遵循能力,还发现大规模指令调整数据集对于多语言7B参数模型至关重要,并进行人工注释研究以理解多语言聊天场景中基于人类和GPT-4的评价之间的对齐情况。
Feb, 2024
本研究解决了多语言模型在不同语言间表现不均的问题,特别是由于传统调优方法的高计算成本和数据质量不足。我们提出了一种基于语言特征选择语言的调优方法,实验结果表明这种选择方式比随机选择语言更能提升模型在多任务中的表现,对多语言系统的开发和数据集创建具有重要影响。
Oct, 2024