指导调优大型语言模型的实证研究
通过多种方法适应 4 个子任务的内在特征,我们提出了一个项目来创建中文指令数据集,收集了约 20 万个中文指令调整样本,并总结了现有的英文和中文指令语料库以及新构建的中文指令语料库的潜在应用。
Apr, 2023
该研究关注于通过指令调整和提供全面的性能评估来增强开源大型语言模型,探讨各种训练数据因素,如数量、质量和语言分布,如何影响用于英语和中文语言的公开高质量指令数据集训练的指令调整模型的性能,目的是通过量化分析为开源聊天模型的持续进步提供有价值的见解,我们的模型、数据和代码可供其他人使用和构建。
May, 2023
本研究旨在使用公开数据集结合自身汉语多轮对话中的数据进行分析,选取各种评估指标来评价各类开源聊天机器人的性能表现,并对 LLaMA 进行词汇扩展及 34 亿汉语单词的二次预训练,以期提升聊天机器人在中文领域的表现与效率,最后将模型、数据、代码进行公开发布。
Apr, 2023
本文探讨了指令调整对大型语言模型性能的影响,并在在线应用案例中通过增加不同比例的指令数据探究了模型的表现。结果表明,增加指令数据可改善某些任务的表现,但对于数学和代码等任务,增加数据规模的改善效果不明显。
Mar, 2023
通过对多种印欧语言中的大规模语言模型进行多语言指令调整数据集上的广泛研究,我们发现使用平行指令调整数据集相比单语数据集能提高跨语言指令遵循能力,还发现大规模指令调整数据集对于多语言 7B 参数模型至关重要,并进行人工注释研究以理解多语言聊天场景中基于人类和 GPT-4 的评价之间的对齐情况。
Feb, 2024
利用指令调整(instruction tuning)技术,对两个规模庞大的通用语言模型进行研究,以期在生物医学自然语言处理任务上取得类似于 BioBERT 和 BioClinicalBERT 等特定编码器模型的结果,并提供了相应的代码、模型和基于指令的数据集。
Dec, 2023
通过利用开源项目中的大规模指令遵循数据集,我们采用参数高效调整方法对两个开放许可的大语言模型 (Bloomz 和 GPTJ) 进行了调整,使其在越南语上取得了显著的性能提升,并通过自动评分机制证明我们的方法相对于原始模型在评估任务上的效果提升了约 20-30%。
Sep, 2023
本文利用 GPT-4 生成的 instruction-following 数据进行大型语言模型 finetuning,发现相较于之前最先进模型生成的数据,52K 的英文和中文 instruction-following 数据可以显着提高新任务的零 - shot 性能。同时我们公开了 GPT-4 生成的数据以及我们的代码库。
Apr, 2023
基于全面的模型性能至诚态度,我们系统调查了数据量、参数规模和数据构建方法对各种能力发展的影响,并通过新的 40k 人工指导的指令数据集进行了数百个模型检查点(7b 到 33b)的全面指导优化。我们的研究揭示了三个主要发现:(i)尽管数据量和参数规模直接影响模型的整体性能,但某些能力更容易受到其增加的影响,并且可以通过有限数据进行有效训练,而某些能力对这些变化高度抵抗。(ii)人工指导的数据在效率上明显优于 GPT-4 的合成数据,并且可以随着数据量增加不断提高模型性能,而合成数据则无法达到这种效果。(iii)指令数据带来了强大的跨能力泛化性,域外数据的评估结果反映了前两个观察结果。此外,我们还展示了这些发现如何指导更高效的数据构建,从而在公共基准测试中实现实际性能的提升。
Oct, 2023
我们构建了一个日本指令数据集,并将其应用于一个日本预训练基础模型。通过我们的指令数据集,对日本和英文现有模型进行了低秩调整(LoRA)。从定量和定性的角度评估了这些模型,结果证实了日本指令数据集的有效性。同时也指出,即使在相对较小的大语言模型中,通过指令调整也能提高下游任务的性能。我们的指令数据集、调整模型和实现代码已在网上公开提供。
Sep, 2023