INSTRUCTEVAL:面向指导调整的大语言模型的全面评估
利用语言模型作为教育专家评估不同学生群体学习成果的方法,以优化教育材料。这种方法可以复制已有的教育研究结果,如专业逆转效应和变异效应,展示了语言模型作为可靠教育内容评估者的潜力。基于此,我们介绍了一种通过一个语言模型生成教育材料,另一个语言模型作为奖励函数进行指令优化的方法,并在数学问题工作表领域应用了这一方法,以最大化学生的学习收益。人类教师对这些由语言模型生成的工作表进行评估,发现语言模型的判断与人类教师的偏好具有显著的一致性。最后,我们讨论了人类和语言模型之间的潜在分歧和自动化教学设计带来的陷阱。
Mar, 2024
基于全面的模型性能至诚态度,我们系统调查了数据量、参数规模和数据构建方法对各种能力发展的影响,并通过新的 40k 人工指导的指令数据集进行了数百个模型检查点(7b 到 33b)的全面指导优化。我们的研究揭示了三个主要发现:(i)尽管数据量和参数规模直接影响模型的整体性能,但某些能力更容易受到其增加的影响,并且可以通过有限数据进行有效训练,而某些能力对这些变化高度抵抗。(ii)人工指导的数据在效率上明显优于 GPT-4 的合成数据,并且可以随着数据量增加不断提高模型性能,而合成数据则无法达到这种效果。(iii)指令数据带来了强大的跨能力泛化性,域外数据的评估结果反映了前两个观察结果。此外,我们还展示了这些发现如何指导更高效的数据构建,从而在公共基准测试中实现实际性能的提升。
Oct, 2023
探索不依赖于封闭源模型生成高质量指令数据的替代方法,并通过整合有效的变体和两种新策略进一步提高其质量,我们的生成指令数据能够胜过依赖封闭源模型的 Alpaca 方法。希望在不使用封闭源模型的情况下能够取得更多的高质量指令数据生成进展。
Aug, 2023
在自然语言处理(NLP)领域中,基于 GPT 模型在金融领域的潜力日益显现。然而,将这些模型与金融数据集结合存在一些挑战,特别是在确定它们的熟练程度和相关性方面。本文介绍了一种独特的方法,该方法以指令调整范式为基础,专门适用于金融环境中的开源大型语言模型。通过这种方法,我们充分利用开源模型的互操作性,确保了无缝透明的集成。我们首先解释了指令调整范式,强调其对即时集成的有效性。本文提出了一个基准测试方案,用于端到端的训练和测试,采用一种经济有效的进展方式。首先,我们评估了基本能力和基本任务,例如命名实体识别(NER)和情感分析,以增强特性。接下来,我们深入研究了一个全面的模型,通过汇集所有指令调整来执行多任务操作,以检验其多样性。最后,我们通过标记未见任务并结合新颖的数据集探索了零样本能力,以了解在未知领域的适应性。这样的范式巩固了开放性和可重现性的原则,为未来在开源金融大型语言模型(FinLLMs)中的研究奠定了坚实的基础。
Oct, 2023
LLMs 在自然语言处理任务中取得了巨大成功,但在生物医学领域的指令却只有少数发布。为了解决这个问题,我们介绍了 BioInstruct,一个包含超过 25000 个示例的定制任务特定指令数据集。通过使用 BioInstruct 数据集对 LLMs 进行微调,我们旨在优化 LLM 在生物医学自然语言处理(BioNLP)领域的性能。我们在 BioNLP 应用中对 LLaMA LLMs(1&2,7B&13B)进行了指令调优,并评估了它们的信息提取、问答和文本生成能力。我们还使用多任务学习原则评估了指令对模型性能的贡献。
Oct, 2023
通过对多种印欧语言中的大规模语言模型进行多语言指令调整数据集上的广泛研究,我们发现使用平行指令调整数据集相比单语数据集能提高跨语言指令遵循能力,还发现大规模指令调整数据集对于多语言 7B 参数模型至关重要,并进行人工注释研究以理解多语言聊天场景中基于人类和 GPT-4 的评价之间的对齐情况。
Feb, 2024
本文探讨了指令调整对大型语言模型性能的影响,并在在线应用案例中通过增加不同比例的指令数据探究了模型的表现。结果表明,增加指令数据可改善某些任务的表现,但对于数学和代码等任务,增加数据规模的改善效果不明显。
Mar, 2023
通过引入 Instruction-Following Eval (IFEval) 作为一种简单易复制的评估基准来解决大型语言模型中遵循指令能力的评估问题。该基准专注于一组 “可验证指令”,并构建了约 500 个提示,每个提示包含一个或多个可验证指令。
Nov, 2023
该研究介绍了 INSTRUCTSCORE,一种可解释的用于评估文本生成的评估度量标准,通过利用显式人类指令和 GPT4 的隐式知识来创建评估度量标准。研究结果表明,INSTRUCTSCORE 可以在不需要人类数据之间达到类似于 COMET22 等最先进度量标准的性能水平。
May, 2023