语言无关语言推理的基准测试:Linguini
为了实现一种泛用的自然语言理解技术,我们引入了GLUE基准测试,它是一种用于评估并分析现有NLU任务中模型性能的工具。该测试套件是模型无关的,提供手工诊断测试套件以进行详细的语言分析。我们评估了基于当前的多任务和迁移学习方法的基线,发现它们并没有立即在将单独的模型训练于每个任务上的总体表现上取得大幅度的改进,这表明在开发泛用且稳健的自然语言理解系统方面有改进的空间。
Apr, 2018
研究跨语言建模的进展取决于具有挑战性、真实性和多样性的评估集。本文提出了一种开放领域的问题回答评估集“Multilingual Knowledge Questions and Answers”(MKQA),包括10k个问题-答案对,跨越26种语言(总计260k个问题-答案对)。结果表明,即使在英语中,这个数据集也具有挑战性,尤其是在低资源语言中。
Jul, 2020
本文介绍一种新的NLI基准Curriculum,其中包括36种广泛涵盖的语言现象的数据集和评估程序,证明这种以语言现象驱动的基准在诊断模型行为和验证模型学习质量方面具有有效性,同时为未来对数据集的重新设计、模型架构和学习目标的研究提供了启示和借鉴。
Apr, 2022
通过使用多种类型不同的语言,我们通过手动将 GSM8K 数据集中的 250 个小学数学问题翻译成十种不同的语言,评估了大型语言模型在多语种环境下的推理能力,并提出了 MGSM 基准。我们发现,随着模型规模的增加,使用思维链提示解决 MGSM 问题的能力越来越强,即使在孟加拉语和斯瓦希里语等少数语言中,这些模型也具有非常强的多语种推理能力。最后,我们展示了语言模型的多语种推理能力扩展到其他任务,例如常识推理和上下文语义判断。
Oct, 2022
这篇论文介绍了GAOKAO-Benchmark,它是一个直观的基准测试,利用中国高考考试的问题作为测试样本,对大型语言模型进行评估的一种方法。我们采用基于零-shot prompts的方法来分析模型的准确率和评分率,发现ChatGPT模型在解决客观问题方面表现优异,同时也揭示了它的不足之处和改进方向,为未来大规模语言模型的评估提供了坚实的基础和有价值的见解。
May, 2023
本文提出了一种新的基准测试框架,Language-Model-as-an-Examiner,其中LM作为一个知识丰富的考官,提出问题,并以无参考的方式评估答复,以便更全面和公平地评估模型。
Jun, 2023
提出了Holmes语言模型能力评估基准,通过使用基于分类器的探测来评估语言模型的语言能力。分析50多个语言模型发现,其语言能力与模型大小相关,同时模型架构和指令调整也显著影响性能,特别是在形态和语法方面。最后,提出了FlashHolmes,它是Holmes的简化版本,旨在降低高计算负载同时保持高排名准确性。
Apr, 2024
通过使用泰语Winograd模式集合,对流行的大型语言模型在泰语上的表现进行评估,揭示了它们的优势、局限性,并为当前技术发展提供了一些见解,结果表明尽管GPT-4和Claude-3-Opus等模型在英语上达到了高准确度,但它们在泰语上的性能显著下降,突出了对多语言常识推理的进一步改进的需求。
May, 2024
通过LingOly基准测试,我们评估了大型语言模型在上下文识别、语言模式的泛化能力以及执行复杂任务指令的能力,并发现在没有记忆的情况下,当前语言模型在真正的多步骤跨领域推理方面仍存在挑战。
Jun, 2024
我们介绍了modeLing,这是一种测试人工智能系统中少样本推理能力的新型Linguistics Olympiad-style谜题基准。通过从少数例子中推断一种语言的语法结构的各个方面,解决这些谜题需要一定的推理能力。modeLing是专门为本研究编写的全新谜题,不会出现在现有AI系统的训练数据中,减少了数据泄漏对推理评估的潜在混淆因素。通过在我们的基准测试中评估多个大型开源语言模型和GPT,我们观察到相当高的准确性,表明具备少样本新兴推理能力,不能仅归因于浅层记忆。然而,不完美的模型表现表明modeLing可以用来衡量语言推理的进一步进展。
Jun, 2024