基于多样化指令的可控生成大型语言模型的基准测试
指令微调方法能够增强大型语言模型在未知任务上的零样本功能,并对其性能和稳健性进行了评估,发现在处理陌生指令时性能显著下降,而对于关系抽取指令的稳健性较问答指令更差。
Aug, 2023
通过广泛的实验证明,我们提出了CELLO——一个评估大型语言模型理解复杂指令能力的基准,包括八个复杂指令特征,并从现实场景中构建了一个全面的评估数据集。我们还建立了四个标准和相应的度量方法,以比较代表性的面向中文和面向英文模型在跟随复杂指令方面的表现。
Sep, 2023
这篇研究通过引入一个具有挑战性的元评估基准LMMBar,调查了大型语言模型(LLMs)在评估指导遵循生成文本方面的效力,发现不同评估器对LMMBar的性能表现不同,最高分的评估器仍有改进的空间,并提出了一套新颖的提示策略来缩小LLM和人类评估器之间的差距。通过LLMBar希望提供对LLM评估器的更多洞察,并促进未来开发更好的指导遵循模型的研究。
Oct, 2023
本文提出了FollowBench,这是一个用于大型语言模型(LLMs)的多级细粒度约束遵循基准,通过评估LLMs在遵循不同类型的细粒度约束方面的表现,揭示了LLMs在遵循指令方面的不足之处,并指出了未来研究的潜在方向。
Oct, 2023
通过使用编码-解码原理,我们引入了CodecLM,这是一个用于自适应生成与不同后续指令分布和大语言模型对齐的高质量合成数据的通用框架。在编码过程中,我们将种子指令转化为元数据,然后通过解码来创建定制的指令。我们还引入自我评分和对比过滤来定制数据样本,经过在四个开放领域指令遵循基准测试上的大量实验证明,CodecLM相对于当前技术水平具有显著的效果。
Apr, 2024
使用包含多个约束条件的指令来训练大型语言模型,能提高其理解复杂指令,特别是对于低复杂性水平的指令,甚至可以推广到超出领域约束的组合,同时提出了获取和利用有效训练数据的方法,并通过广泛实验验证了方法在总体性能、训练效率和泛化能力方面的有效性。
Apr, 2024
基于Instruction-tuned模型的可控文本生成,使用基于提示的方法超过了其他可控文本生成方法,在大多数数据集和任务上匹配人类表现,突出了对更多约束和具有挑战性的风格任务的研究的需求。
May, 2024
介绍了一种有效的数据增强技术,通过将复杂指令分解为简单的子组件、修改并重构它们为新的变体,以在训练和评估大型语言模型的指令追踪精度时保留原始指令的上下文和复杂性,并引入可变性。使用该方法开发了DeMoRecon数据集来精细调整和评估大型语言模型,在我们的指令追踪基准和常用基准上,发现使用DeMoRecon进行精细调整的大型语言模型性能显著提升。
Jun, 2024
评估大型语言模型(LLMs)遵循多个指令的能力面临诸多挑战,为解决这些问题,我们引入了一个基准测试,通过顺序指令跟踪任务评估模型的遵循多个指令的能力。
Jun, 2024
LLMs' ability to follow complex instructions composed of multiple constraints is evaluated using ComplexBench, a new benchmark that exposes deficiencies in existing models.
Jul, 2024