Conifer: 提高大型语言模型复杂约束指令遵循能力
使用包含多个约束条件的指令来训练大型语言模型,能提高其理解复杂指令,特别是对于低复杂性水平的指令,甚至可以推广到超出领域约束的组合,同时提出了获取和利用有效训练数据的方法,并通过广泛实验验证了方法在总体性能、训练效率和泛化能力方面的有效性。
Apr, 2024
本文提出了 FollowBench,这是一个用于大型语言模型(LLMs)的多级细粒度约束遵循基准,通过评估 LLMs 在遵循不同类型的细粒度约束方面的表现,揭示了 LLMs 在遵循指令方面的不足之处,并指出了未来研究的潜在方向。
Oct, 2023
LLMs' ability to follow complex instructions composed of multiple constraints is evaluated using ComplexBench, a new benchmark that exposes deficiencies in existing models.
Jul, 2024
通过广泛的实验证明,我们提出了 CELLO—— 一个评估大型语言模型理解复杂指令能力的基准,包括八个复杂指令特征,并从现实场景中构建了一个全面的评估数据集。我们还建立了四个标准和相应的度量方法,以比较代表性的面向中文和面向英文模型在跟随复杂指令方面的表现。
Sep, 2023
我们提出了一个新的基准测试 CoDI-Eval,系统和全面评估 LLMs 对带有各种约束的指令的响应,揭示了它们在按照特定约束执行指令方面的局限性和开源与闭源 LLMs 之间存在显著差距。
Jan, 2024
介绍了一种有效的数据增强技术,通过将复杂指令分解为简单的子组件、修改并重构它们为新的变体,以在训练和评估大型语言模型的指令追踪精度时保留原始指令的上下文和复杂性,并引入可变性。使用该方法开发了 DeMoRecon 数据集来精细调整和评估大型语言模型,在我们的指令追踪基准和常用基准上,发现使用 DeMoRecon 进行精细调整的大型语言模型性能显著提升。
Jun, 2024
近年来,指导调整已经引起了越来越多的关注,并成为增强大型语言模型(LLM)功能的关键技术。为了构建高质量的指导数据集,已经提出了许多指导处理方法,旨在实现数据数量和数据质量之间的微妙平衡。然而,由于各种指导处理方法之间存在的不一致性,社区中没有标准的开源指导处理实现框架可用,这妨碍了从业者的进一步开发和进展。为了促进指导处理的研究和开发,我们提供了 EasyInstruct,这是一个易于使用的 LLM 指导处理框架,它将指导生成、选择和提示模块化,同时考虑它们的组合和互动。EasyInstruct 已在 https URL 上公开发布,并配有一个运行中的演示应用程序,用于快速启动,并呼吁更广泛的以指导数据为中心的研究。
Feb, 2024
介绍 DINGO,这是一个细粒度且多样化的指示遵循评估数据集,通过该数据集可以对大型语言模型进行更具挑战性和全面性评估,并提供任务级细粒度指导以进一步改进语言模型。
Jul, 2024
通过对开源 LLMs 进行微调,我们引入了 Ada-Instruct,一种自适应指令生成器。我们的结果表明,通过仅使用十个样本对开源 LLMs 进行微调,可以生成分布一致的长指令,用于复杂的推理任务。我们在不同的应用中进行了实证验证,包括代码补全、数学推理和常识推理,结果显示 Ada-Instruct 相对于基本模型、当前自我指导方法和其他最先进模型具有优势。
Oct, 2023
通过指令调整和偏好对齐,InstructGraph 框架赋予大型语言模型(LLMs)图推理和生成能力。该框架中,我们首先提出了结构化格式化语言器来统一所有图数据,并且引入了图指令调整阶段来指导 LLMs 解决图推理和生成任务。最后,我们针对图任务中的潜在幻觉问题抽取了负例样本以进行偏好对齐,以提高模型输出的可靠性。通过多个图相关任务的广泛实验,InstructGraph 实现了最佳性能,并且超过 GPT-4 和 LLaMA2 分别 13% 和 38% 以上。
Feb, 2024