自我指导: 用自动生成的指令对齐语言模型
该研究论文证明使用in-context learning可让大型语言模型显式推断潜在任务,通过自然语言生成指令,InstructGPT 的表现达到了人类的65.7%,建议指令感应可能是一种学习范例。
May, 2022
通过对大量不同类别的创造性指示进行收集,实现了使用深度学习语言模型(pretrained language models)从inference-time自然语言指示中执行新任务的可能性并验证了其用于数据集扩展和多样化的价值。
Dec, 2022
本文利用GPT-4生成的instruction-following数据进行大型语言模型finetuning,发现相较于之前最先进模型生成的数据,52K的英文和中文instruction-following数据可以显着提高新任务的零-shot性能。同时我们公开了GPT-4生成的数据以及我们的代码库。
Apr, 2023
INSTRUCTEVAL是一个全面的评估套件,旨在评估大型语言模型在指令调整下的表现,其结果表明,指令数据的质量是影响模型性能的最重要因素,并且从问题解决能力和与人类价值观的一致性方面,这些模型还有很大的提升空间。
Jun, 2023
本文引入了指令追踪评分(IFS)这一度量标准,用于检测语言模型遵循指令的能力。我们通过基准测试公开可用的基础模型和指令模型,并展示了格式良好回应与部分和完整句子之间的比例可以作为这两类模型之间有效的衡量指标。此外,我们还利用IFS作为指令调整的早停准则,在7B和13B LLaMA模型的监督微调中计算IFS,结果表明模型在训练过程中相对早期就学会了遵循指令,并且进一步微调可以导致基础模型语义的变化。我们通过一个辅助标准ObjecQA来展示模型预测的客观性的变化。我们展示了在这种情况下IFS趋于平稳时语义变化最为显著。我们希望将指令调整分解为IFS,以便更好地处理和理解。
Jul, 2023
使用上下文学习(ICL)来进行数据生成,结合自我指导和山羊驼等技术可以只通过少量人工监督即可训练出强大的对话代理。本论文研究探索了将这些技术应用于更小(大约10B-40B参数)且具有宽松许可的语言模型,并提出了新的ICL方法来提高指令学习数据的质量和改进指令调优的语言模型性能。
Oct, 2023
基于全面的模型性能至诚态度,我们系统调查了数据量、参数规模和数据构建方法对各种能力发展的影响,并通过新的40k人工指导的指令数据集进行了数百个模型检查点(7b到33b)的全面指导优化。我们的研究揭示了三个主要发现:(i)尽管数据量和参数规模直接影响模型的整体性能,但某些能力更容易受到其增加的影响,并且可以通过有限数据进行有效训练,而某些能力对这些变化高度抵抗。(ii)人工指导的数据在效率上明显优于GPT-4的合成数据,并且可以随着数据量增加不断提高模型性能,而合成数据则无法达到这种效果。(iii)指令数据带来了强大的跨能力泛化性,域外数据的评估结果反映了前两个观察结果。此外,我们还展示了这些发现如何指导更高效的数据构建,从而在公共基准测试中实现实际性能的提升。
Oct, 2023
我们提出了基于GPT-4的高效自指导方法,通过翻译少量英语指令并进行修订,为日语构建高质量的指令数据和评估基准,并证明使用我们的GPT-4自指导数据进行微调的模型在所有三个基本预训练模型上表现明显优于Japanese-Alpaca。
Mar, 2024
本研究解决了预训练大语言模型在执行人类指令时因测试时间数据分布变化而导致的准确性问题。提出的选择性指令执行方法依赖于训练判别模型来预测模型响应的质量,并通过自我评估框架Self-J来建立这些模型,避免了需要人工标注的质量分数。实验表明,该方法在多个开源模型中的表现优于强基线,并且在域间具有良好的泛化能力。
Sep, 2024