Multi-IF:多轮和多语种指令遵循的LLMs基准评估
通过广泛的实验证明,我们提出了CELLO——一个评估大型语言模型理解复杂指令能力的基准,包括八个复杂指令特征,并从现实场景中构建了一个全面的评估数据集。我们还建立了四个标准和相应的度量方法,以比较代表性的面向中文和面向英文模型在跟随复杂指令方面的表现。
Sep, 2023
通过使用工具和自然语言反馈,MINT基准测试评估了大型语言模型在解决具有多回合交互的任务时的能力,并从20个开源和闭源的语言模型分析中发现,在工具交互和自然语言反馈的情况下,LLMs的性能有所提升。
Sep, 2023
这篇研究通过引入一个具有挑战性的元评估基准LMMBar,调查了大型语言模型(LLMs)在评估指导遵循生成文本方面的效力,发现不同评估器对LMMBar的性能表现不同,最高分的评估器仍有改进的空间,并提出了一套新颖的提示策略来缩小LLM和人类评估器之间的差距。通过LLMBar希望提供对LLM评估器的更多洞察,并促进未来开发更好的指导遵循模型的研究。
Oct, 2023
在小众语言如阿拉伯语中,我们详细研究了开放式大型语言模型在回应多轮指令方面的能力,并利用自定义的阿拉伯文翻译的MT-Bench基准套件和GPT-4作为评估工具,对英文和阿拉伯文进行了综合评估和比较,结果表明在不同任务类别(逻辑和文学)以英文或阿拉伯文指令时,模型的回答会有所差异。我们发现,使用多语言和多轮次数据集进行微调的基础模型与从头开始使用多语言数据训练的模型具有竞争力。最后,我们假设一组小型、开放式大型语言模型在基准测试中具有与专有模型相当的性能。
Oct, 2023
这篇论文介绍了FollowEval基准测试,通过人工专家设计的测试实例来评估大型语言模型在指令跟随能力方面的表现,测试涵盖了字符串处理、常识推理、逻辑推理、空间推理和响应约束等五个关键维度,并发现这些模型在指令跟随能力方面明显落后于人类,指出了这些模型在这方面还有很大的改进空间。
Nov, 2023
通过对多种印欧语言中的大规模语言模型进行多语言指令调整数据集上的广泛研究,我们发现使用平行指令调整数据集相比单语数据集能提高跨语言指令遵循能力,还发现大规模指令调整数据集对于多语言7B参数模型至关重要,并进行人工注释研究以理解多语言聊天场景中基于人类和GPT-4的评价之间的对齐情况。
Feb, 2024
通过构建两个数据集,将 LLaMA 和 BLOOM 的多语言能力扩展到 100 种语言,并使用 DPO 算法对 LLMs 进行与人类反馈的对齐,实现了对 100 种语言的支持,从而定义了最新的、支持 100 种语言的多语言 LLMs 的最新技术。
Jun, 2024
指导微调(IFT)对于使大型语言模型(LLM)遵循指令非常关键。本文提出了一个全新的完全合成的多语言多轮指导微调数据集(M2Lingual),称为Evol,以更好地使LLM在多种语言和任务中对齐。M2Lingual包含182K个基于不同种子构建的IFT对,涵盖了70种语言、17个NLP任务和一般的指令-响应对。使用M2Lingual微调的LLMs在许多现有的多语言IFT数据集中表现出色。重要的是,使用M2Lingual训练的LLMs在广泛的评估基准上始终能够达到与现有的多语言IFT数据集相媲美的竞争结果。因此,我们提出了用于创建M2Lingual的2步Evol分类法。
Jun, 2024
评估大型语言模型(LLMs)遵循多个指令的能力面临诸多挑战,为解决这些问题,我们引入了一个基准测试,通过顺序指令跟踪任务评估模型的遵循多个指令的能力。
Jun, 2024
LLMs have limitations in generating text in a user's desired language, and the Language Confusion Benchmark evaluates these failures, finding that Llama Instruct and Mistral models exhibit high degrees of language confusion, even the strongest models fail to consistently respond in the correct language.
Jun, 2024