塔式评估:复杂指令评估的树形组织加权方法
评估语言模型的任务套件BIG-Bench在多步推理方面的表现,通过应用“chain-of-thought”提示,可以提高模型性能,证明多数任务要求此类提示以获得更好的性能,并且此提示与模型规模具有交互作用。
Oct, 2022
通过广泛的实验证明,我们提出了CELLO——一个评估大型语言模型理解复杂指令能力的基准,包括八个复杂指令特征,并从现实场景中构建了一个全面的评估数据集。我们还建立了四个标准和相应的度量方法,以比较代表性的面向中文和面向英文模型在跟随复杂指令方面的表现。
Sep, 2023
这篇研究通过引入一个具有挑战性的元评估基准LMMBar,调查了大型语言模型(LLMs)在评估指导遵循生成文本方面的效力,发现不同评估器对LMMBar的性能表现不同,最高分的评估器仍有改进的空间,并提出了一套新颖的提示策略来缩小LLM和人类评估器之间的差距。通过LLMBar希望提供对LLM评估器的更多洞察,并促进未来开发更好的指导遵循模型的研究。
Oct, 2023
通过对大型语言模型的指令遵循能力进行度量的多种度量方法的元评估,分析评估方法与人工判断之间的一致性,并提出基于LLM的无参考评估方法,改进了传统基准,并达到了要求高质量摘要的昂贵基于参考文献的指标的效果。
Oct, 2023
基于全面的模型性能至诚态度,我们系统调查了数据量、参数规模和数据构建方法对各种能力发展的影响,并通过新的40k人工指导的指令数据集进行了数百个模型检查点(7b到33b)的全面指导优化。我们的研究揭示了三个主要发现:(i)尽管数据量和参数规模直接影响模型的整体性能,但某些能力更容易受到其增加的影响,并且可以通过有限数据进行有效训练,而某些能力对这些变化高度抵抗。(ii)人工指导的数据在效率上明显优于GPT-4的合成数据,并且可以随着数据量增加不断提高模型性能,而合成数据则无法达到这种效果。(iii)指令数据带来了强大的跨能力泛化性,域外数据的评估结果反映了前两个观察结果。此外,我们还展示了这些发现如何指导更高效的数据构建,从而在公共基准测试中实现实际性能的提升。
Oct, 2023
这篇论文介绍了FollowEval基准测试,通过人工专家设计的测试实例来评估大型语言模型在指令跟随能力方面的表现,测试涵盖了字符串处理、常识推理、逻辑推理、空间推理和响应约束等五个关键维度,并发现这些模型在指令跟随能力方面明显落后于人类,指出了这些模型在这方面还有很大的改进空间。
Nov, 2023
我们提出了一个新的基准测试CoDI-Eval,系统和全面评估LLMs对带有各种约束的指令的响应,揭示了它们在按照特定约束执行指令方面的局限性和开源与闭源LLMs之间存在显著差距。
Jan, 2024
介绍了Decomposed Requirements Following Ratio (DRFR)这一新的指标,用于评估大型语言模型(LLMs)遵循指示的能力;配合该指标的InFoBench基准,包含500个不同指令和2250个分解问题,通过与传统评分方法和注释来源的比较,证明了DRFR的可靠性和GPT-4作为一种经济高效的注释工具的有效性;该研究揭示了多个先进LLM的优势和需要改进的区域,特别是在复杂指示遵循方面;为未来LLM的开发和评估提供了有益的见解。
Jan, 2024
通过BiGGen Bench的引入,对77个不同任务中的九种语言模型的生成能力进行了全面评估,并借助实例特定的评估标准来模拟人类评估的微妙辨别。该研究公开提供了代码、数据和评估结果。
Jun, 2024
LLMs' ability to follow complex instructions composed of multiple constraints is evaluated using ComplexBench, a new benchmark that exposes deficiencies in existing models.
Jul, 2024