大型语言模型是否能理解真实世界的复杂指令?
本文介绍了一种使用大型语言模型(LLM)替代人类创建指令数据的方法,通过使用我们提出的 Evol-Instruct,从一个初始指令集开始,逐步将其重写为更复杂的指令,然后将生成的所有指令数据混合起来,以调整 LLaMA 模型,获得我们所称的 WizardLM 模型。人类评估证明,Evol-Instruct 出产的指令优于人工创建的指令,尤其是在高复杂度方面,WizardLM 模型的输出被认为比 OpenAI ChatGPT 的输出更好。尽管 WizardLM 在某些方面仍落后于 ChatGPT,但我们的研究表明,用人工智能生成的指令进行微调是提升大型语言模型的一个有前途的方向。
Apr, 2023
指令微调方法能够增强大型语言模型在未知任务上的零样本功能,并对其性能和稳健性进行了评估,发现在处理陌生指令时性能显著下降,而对于关系抽取指令的稳健性较问答指令更差。
Aug, 2023
当前大型语言模型(LLMs)在生成符合语法、流畅的文本方面无与伦比。这篇论文针对LLMs的能力进行了辩论,并通过批判性评估三个经常在批评中出现的观点来展示LLMs仍需更多细化。其次,文章从实证和理论的角度提出了对LLMs中“真正”的理解和意向性的实用观点,并讨论了在何种情况下将心理状态归因于LLMs对于这一日益重要的技术在社会中具有实用的哲学背景。
Oct, 2023
这篇论文介绍了FollowEval基准测试,通过人工专家设计的测试实例来评估大型语言模型在指令跟随能力方面的表现,测试涵盖了字符串处理、常识推理、逻辑推理、空间推理和响应约束等五个关键维度,并发现这些模型在指令跟随能力方面明显落后于人类,指出了这些模型在这方面还有很大的改进空间。
Nov, 2023
本研究通过对指导数据集的混合类型进行分类和研究,发现特定类型的指导对于特定用途更有益处,但可能对其他方面造成伤害,强调了精心设计指导混合以最大化模型性能的重要性。该研究对指导混合提出了新观点,并为未来研究铺平了道路。
Dec, 2023
我们提出了一个新的基准测试CoDI-Eval,系统和全面评估LLMs对带有各种约束的指令的响应,揭示了它们在按照特定约束执行指令方面的局限性和开源与闭源LLMs之间存在显著差距。
Jan, 2024
使用包含多个约束条件的指令来训练大型语言模型,能提高其理解复杂指令,特别是对于低复杂性水平的指令,甚至可以推广到超出领域约束的组合,同时提出了获取和利用有效训练数据的方法,并通过广泛实验验证了方法在总体性能、训练效率和泛化能力方面的有效性。
Apr, 2024
LLMs' ability to follow complex instructions composed of multiple constraints is evaluated using ComplexBench, a new benchmark that exposes deficiencies in existing models.
Jul, 2024
本研究开发了一个用于评估语言模型指令遵循能力的基准,存在于验证任务表现和指令遵循能力之间的缺口。我们通过增加条件性指令来改进现有知识基准,从而揭示模型在面临不同指令时的表现变化。研究结果表明,即使是经过大型指令调整的模型,在零-shot设置下仍难以遵循简单指令。
Oct, 2024
本研究解决了当前基准主要集中于单轮单语指令的缺陷,无法全面反映多轮多语种交互的复杂性。我们提出了Multi-IF,这是一种新基准,通过结合LLM和人类注释,评估模型在多轮多语种指令执行中的能力。我们的研究发现,测试的最新LLM在多轮情况下的指令执行失败率显著提高,尤其在使用非拉丁文字的语言中表现尤为明显,显示出模型的多语种能力存在潜在局限。
Oct, 2024