反射调优:数据再利用提升 LLM 指令调优
本文介绍了一种名为 Low Training Data Instruction Tuning (LTD Instruction Tuning) 的方式,从减少数据使用、优化任务性能、优化指令调整类型和使用任务特定模型等方面,降低大型语言模型(LLMs)指令调整的数据使用,提高数据利用效率。实验结果表明,可以使用少于原始数据集的 0.5% 来训练任务特定的模型,并且相较于使用完整的任务相关数据训练的模型,性能可提升 2%。
May, 2023
对于指令调优(IT)领域的研究进行了概述,它是增强和可控大型语言模型(LLMs)能力的关键技术。该研究系统回顾了 IT 的一般方法论、IT 数据集的构建、IT 模型的训练以及不同模态、领域和应用的应用,并分析了影响 IT 结果的因素(例如,指令输出的生成、指令数据集的大小等)。还审查了 IT 存在的潜在问题以及对其的批评,指出了现有策略的不足之处,并提出了一些有益的研究方向。
Aug, 2023
基于全面的模型性能至诚态度,我们系统调查了数据量、参数规模和数据构建方法对各种能力发展的影响,并通过新的 40k 人工指导的指令数据集进行了数百个模型检查点(7b 到 33b)的全面指导优化。我们的研究揭示了三个主要发现:(i)尽管数据量和参数规模直接影响模型的整体性能,但某些能力更容易受到其增加的影响,并且可以通过有限数据进行有效训练,而某些能力对这些变化高度抵抗。(ii)人工指导的数据在效率上明显优于 GPT-4 的合成数据,并且可以随着数据量增加不断提高模型性能,而合成数据则无法达到这种效果。(iii)指令数据带来了强大的跨能力泛化性,域外数据的评估结果反映了前两个观察结果。此外,我们还展示了这些发现如何指导更高效的数据构建,从而在公共基准测试中实现实际性能的提升。
Oct, 2023
指导调优对大型语言模型(LLMs)进行调优的普遍方法,能够使其生成更接近自然语言查询的人类响应的输出,在许多情况下在各种测试中实现人类水平的性能。然而,指导调优是否真正使 LLMs 更加与人类处理语言的方式相似仍不清楚。我们通过两种方式研究指导调优对 LLM-human 相似性的影响:(1) 大脑对齐,即 LLM 内部表示与人类语言系统的神经活动相似度,(2) 行为对齐,即 LLM 和人类在阅读任务上的行为相似度。我们评估了 25 个原始版本和经过指导调优的 LLMs 在涉及人类阅读自然故事和句子的三个数据集上的表现。我们发现指导调优通常使大脑对齐提高了平均 6%,但对行为对齐没有类似效果。为了确定影响 LLM-brain 对齐的因素,我们计算了 LLMs 的大脑对齐与各种模型特性之间的相关性,如模型大小、各种问题解决能力和需要跨各种领域的世界知识的任务的性能。值得注意的是,我们发现大脑对齐和模型大小(r = 0.95)以及需要世界知识的任务的表现(r = 0.81)之间存在强正相关。我们的结果表明,指导调优 LLMs 可以改善世界知识表示和大脑对齐,这表明在 LLMs 中编码世界知识的机制也可以改善与人类大脑的表征对齐。
Dec, 2023
通过自动修订样本来增强指令数据集的质量,CoachLM 训练自人工专家修订过的样本,并将数据集中高质量样本的比例从 17.7%提高到 78.9%。CoachLM 通过平均 29.9%的提升改善了指令调优的语言学习模型的指令跟随能力,并在华为的 LLM 数据管理系统中实现了高达 20%的效率提升。
Nov, 2023
大型语言模型的自主选择优化方法以及通过 IFD 指标识别差异以提高模型训练效率的研究对于提高 LLM 的效率和资源利用具有重要意义。
Aug, 2023
通过对多模式大语言模型的最新图像语言指令调整设置和数据集的系统回顾,我们总结出高质量图像语言调整数据的特点,构建了完整的数据收集、指令生成和质量控制模块的构建流水线,并在所构建的指令数据上对三种广泛使用的多模式大语言模型进行了图像语言指令调整,并通过相应的度量指标进行了大量实验,以论证本文提出的构建原则的合理性。
Nov, 2023
利用人工智能模型替代人类作为教师,通过研究生成学生成绩的修订,构建了 Curriculum Instruction TunING (CITING) 方法,提高了大型语言模型的表达、深度和全面性能,在 GPT-4 评估上取得了 79.4% 的胜率。
Oct, 2023
本文介绍了一种新的无监督方法 SIRLC,通过强化学习来提高 LLMs 的性能,无需依赖外部标签。该方法把 LLMs 分配为学生和教师两个角色,通过评分策略来更新模型参数,实验结果表明,SIRLC 能够有效提高 LLM 的表现,适用于多个自然语言处理任务,并且无需外部监督。
May, 2023