生成模型的自动评估与指令调优
INSTRUCTEVAL 是一个全面的评估套件,旨在评估大型语言模型在指令调整下的表现,其结果表明,指令数据的质量是影响模型性能的最重要因素,并且从问题解决能力和与人类价值观的一致性方面,这些模型还有很大的提升空间。
Jun, 2023
通过训练语言模型自动设计任务而收集高质量的教学适应数据的可扩展方法,自动生成任务指导、输入和输出,用于过滤噪音,并通过自动和手工评估实验来证明数据集的质量。
Sep, 2023
基于全面的模型性能至诚态度,我们系统调查了数据量、参数规模和数据构建方法对各种能力发展的影响,并通过新的 40k 人工指导的指令数据集进行了数百个模型检查点(7b 到 33b)的全面指导优化。我们的研究揭示了三个主要发现:(i)尽管数据量和参数规模直接影响模型的整体性能,但某些能力更容易受到其增加的影响,并且可以通过有限数据进行有效训练,而某些能力对这些变化高度抵抗。(ii)人工指导的数据在效率上明显优于 GPT-4 的合成数据,并且可以随着数据量增加不断提高模型性能,而合成数据则无法达到这种效果。(iii)指令数据带来了强大的跨能力泛化性,域外数据的评估结果反映了前两个观察结果。此外,我们还展示了这些发现如何指导更高效的数据构建,从而在公共基准测试中实现实际性能的提升。
Oct, 2023
通过对自然语言指令模板中的 60 个自然语言处理任务进行调整,我们将一个 137B 预训练语言模型调整为 FLAN 并在未看见的任务数据上进行评估,结果表明,通过指令调整,可以大大改善它在未看见任务上的性能并在 20 个任务上超越了 175B GPT-3 的零样本性能。
Sep, 2021
通过对大量不同类别的创造性指示进行收集,实现了使用深度学习语言模型(pretrained language models)从 inference-time 自然语言指示中执行新任务的可能性并验证了其用于数据集扩展和多样化的价值。
Dec, 2022
利用指令调整(instruction tuning)技术,对两个规模庞大的通用语言模型进行研究,以期在生物医学自然语言处理任务上取得类似于 BioBERT 和 BioClinicalBERT 等特定编码器模型的结果,并提供了相应的代码、模型和基于指令的数据集。
Dec, 2023
通过检验三种认知偏见(假象效应、确定性效应和信仰偏误)在经过指导调优的语言模型中的存在程度,我们的研究提供了证据表明,这些经过调优的模型表现出过去预训练模型中不存在或较不明显的偏见,进一步突出了这些偏见存在于各种模型中的事实,特别是那些经过指导调优的模型,如 Flan-T5,GPT3.5 和 GPT4,这一研究对认识指导调优的语言模型中的认知偏见是至关重要的,从而对更可靠、无偏的语言模型的发展具有重要意义。
Aug, 2023
应用结构化认知学习方法于现代大型语言模型的指令调优,通过提供高度结构化合成数据集,模仿人类教育的渐进和有组织性,可以显著提升语言模型在理解和响应复杂指令和任务方面的能力。
Oct, 2023
我们对基于文本重叠和大型语言模型判断的自动化方法在广泛任务和跨语言环境中的可靠性进行了研究,发现自动评估方法与人类评估者之间的相关性在任务类型不同的情况下存在相当大的变异性。尽管自动评估方法在特定条件下可以近似人类判断,但其可靠性高度依赖于上下文。这些发现强化了我们在开发和评估面向指导的大型语言模型时如何应用和解释自动化方法的理解。
Feb, 2024