语言无关语言推理的基准测试：Linguini

Sep, 2024

语言无关语言推理的基准测试：Linguini

Linguini: A benchmark for language-agnostic linguistic reasoning

Eduardo Sánchez, Belen Alastruey, Christophe Ropers, Pontus Stenetorp, Mikel Artetxe...

TL;DR本研究提出了一个新基准，旨在测量语言模型的语言推理能力，而无需依赖现有的特定语言知识。我们发现所有分析模型的准确率均低于25%，且开放模型与封闭模型之间存在显著差距，这突显了当前模型在低资源语言处理中的不足。

Abstract

We propose a new benchmark to measure a language model's linguistic reasoning skills without relying on pre-existing language-specific knowledge. The test covers 894 questions grouped in 160 problems across 75 (m

发现论文，激发创造

GLUE：自然语言理解的多任务基准测试和分析平台

为了实现一种泛用的自然语言理解技术，我们引入了GLUE基准测试，它是一种用于评估并分析现有NLU任务中模型性能的工具。该测试套件是模型无关的，提供手工诊断测试套件以进行详细的语言分析。我们评估了基于当前的多任务和迁移学习方法的基线，发现它们并没有立即在将单独的模型训练于每个任务上的总体表现上取得大幅度的改进，这表明在开发泛用且稳健的自然语言理解系统方面有改进的空间。

Apr, 2018

MKQA：面向多语言开放域问题回答的语言多样性基准测试

研究跨语言建模的进展取决于具有挑战性、真实性和多样性的评估集。本文提出了一种开放领域的问题回答评估集“Multilingual Knowledge Questions and Answers”（MKQA），包括10k个问题-答案对，跨越26种语言（总计260k个问题-答案对）。结果表明，即使在英语中，这个数据集也具有挑战性，尤其是在低资源语言中。

Jul, 2020

Curriculum: 自然语言理解广覆盖语言现象基准测试

本文介绍一种新的NLI基准Curriculum，其中包括36种广泛涵盖的语言现象的数据集和评估程序，证明这种以语言现象驱动的基准在诊断模型行为和验证模型学习质量方面具有有效性，同时为未来对数据集的重新设计、模型架构和学习目标的研究提供了启示和借鉴。

Apr, 2022

语言模型是多语言的思维链推理器

通过使用多种类型不同的语言，我们通过手动将 GSM8K 数据集中的 250 个小学数学问题翻译成十种不同的语言，评估了大型语言模型在多语种环境下的推理能力，并提出了 MGSM 基准。我们发现，随着模型规模的增加，使用思维链提示解决 MGSM 问题的能力越来越强，即使在孟加拉语和斯瓦希里语等少数语言中，这些模型也具有非常强的多语种推理能力。最后，我们展示了语言模型的多语种推理能力扩展到其他任务，例如常识推理和上下文语义判断。

Oct, 2022

评估大型语言模型在高考基准测试上的表现

这篇论文介绍了GAOKAO-Benchmark，它是一个直观的基准测试，利用中国高考考试的问题作为测试样本，对大型语言模型进行评估的一种方法。我们采用基于零-shot prompts的方法来分析模型的准确率和评分率，发现ChatGPT模型在解决客观问题方面表现优异，同时也揭示了它的不足之处和改进方向，为未来大规模语言模型的评估提供了坚实的基础和有价值的见解。

May, 2023

使用语言模型作为审核器的基础模型基准测试

本文提出了一种新的基准测试框架，Language-Model-as-an-Examiner，其中LM作为一个知识丰富的考官，提出问题，并以无参考的方式评估答复，以便更全面和公平地评估模型。

Jun, 2023

Holmes：语言模型的语言能力基准测试

提出了Holmes语言模型能力评估基准，通过使用基于分类器的探测来评估语言模型的语言能力。分析50多个语言模型发现，其语言能力与模型大小相关，同时模型架构和指令调整也显著影响性能，特别是在形态和语法方面。最后，提出了FlashHolmes，它是Holmes的简化版本，旨在降低高计算负载同时保持高排名准确性。

Apr, 2024

泰国 Winograd Schema：泰语常识推理基准

通过使用泰语Winograd模式集合，对流行的大型语言模型在泰语上的表现进行评估，揭示了它们的优势、局限性，并为当前技术发展提供了一些见解，结果表明尽管GPT-4和Claude-3-Opus等模型在英语上达到了高准确度，但它们在泰语上的性能显著下降，突出了对多语言常识推理的进一步改进的需求。

May, 2024

LINGOLY：一份基于奥林匹克水平的语言推理难题在资源稀缺和濒危语言中的基准测试

通过LingOly基准测试，我们评估了大型语言模型在上下文识别、语言模式的泛化能力以及执行复杂任务指令的能力，并发现在没有记忆的情况下，当前语言模型在真正的多步骤跨领域推理方面仍存在挑战。

Jun, 2024

modeLing: 用于测试语言模型语言推理的新颖数据集

我们介绍了modeLing，这是一种测试人工智能系统中少样本推理能力的新型Linguistics Olympiad-style谜题基准。通过从少数例子中推断一种语言的语法结构的各个方面，解决这些谜题需要一定的推理能力。modeLing是专门为本研究编写的全新谜题，不会出现在现有AI系统的训练数据中，减少了数据泄漏对推理评估的潜在混淆因素。通过在我们的基准测试中评估多个大型开源语言模型和GPT，我们观察到相当高的准确性，表明具备少样本新兴推理能力，不能仅归因于浅层记忆。然而，不完美的模型表现表明modeLing可以用来衡量语言推理的进一步进展。

Jun, 2024