InstructEval: 指令选择方法的系统评估
该研究论文证明使用in-context learning可让大型语言模型显式推断潜在任务,通过自然语言生成指令,InstructGPT 的表现达到了人类的65.7%,建议指令感应可能是一种学习范例。
May, 2022
INSTRUCTEVAL是一个全面的评估套件,旨在评估大型语言模型在指令调整下的表现,其结果表明,指令数据的质量是影响模型性能的最重要因素,并且从问题解决能力和与人类价值观的一致性方面,这些模型还有很大的提升空间。
Jun, 2023
In this work, the relationship between In-Context Learning (ICL) and Instruction Tuning (IT) is explored by examining how the hidden states of Large Language Models (LLMs) change in these two paradigms, finding that ICL is implicit IT and the convergence is contingent upon factors related to the provided demonstrations.
Nov, 2023
大型语言模型通过上下文学习(ICL)展示出了在各种任务中都具备惊人的能力,本研究探讨了影响ICL性能的因素,并提出了一种基于数据和模型的演示选择方法,该方法通过性能与模型对测试样本的理解相关联来进行演示选择,从而在语言理解和生成任务中实现了一致的改进。
Jan, 2024
大型语言模型通过上下文学习与优化可以在广泛的任务上取得显著效果,然而,该研究调查了当提供任务特定指令时,优化上下文示例的必要性,并发现对于某些任务,对上下文示例进行优化产生递减收益,为此引入了用于测量任务可学习性的度量方法,从而提供了一种启发式方法,帮助决定针对任何新任务是优化指令还是优化上下文示例。
Feb, 2024
通过对长文本 LLMs 进行多个 in-context 学习示例的贪婪选择,我们改进了 ICL 与 URIAL 的对齐效果,但仍未消除与指令微调之间的差距,进一步的削减研究揭示了 ICL 在指令调整的环境中的特殊性,从而推进了对 ICL 作为对齐技术的理解。
May, 2024
介绍了一种有效的数据增强技术,通过将复杂指令分解为简单的子组件、修改并重构它们为新的变体,以在训练和评估大型语言模型的指令追踪精度时保留原始指令的上下文和复杂性,并引入可变性。使用该方法开发了DeMoRecon数据集来精细调整和评估大型语言模型,在我们的指令追踪基准和常用基准上,发现使用DeMoRecon进行精细调整的大型语言模型性能显著提升。
Jun, 2024
使用自动提示优化方法,该研究综合比较了指令优化和示例选择技术在各种具有挑战性任务上的表现,发现智能地重用模型生成的输入输出对作为示例能够持续提高性能,并且选择示例的方法可能优于优化指令的方法。此外,示例选择和指令优化的最佳组合可以实现超过个别贡献的协同效应,并强调研究示例选择方法和其与指令优化的最佳结合在自动提示优化中的重要性。
Jun, 2024