Invalsi 基准：测量意大利中文数学和语言理解的语言模型

Mar, 2024

Invalsi 基准：测量意大利中文数学和语言理解的语言模型

The Invalsi Benchmark: measuring Language Models Mathematical and Language understanding in Italian

Andrea Esuli, Giovanni Puccetti

TL;DR通过许多模型的评估，研究表明：目前意大利语存在着缺乏针对该语言的预训练语言模型的现象，从而导致意大利语的语言模型评估数据较少。该研究提出了两个基于 11 至 18 岁学生在意大利学校系统中进行的真实测试的评估基准，经多位教学和教育专家验证。在意大利写作时，通过评估 9 个表现最佳的语言模型，包括研究者自己的微调模型，发现当前语言模型在该基准上的准确率约为 60％。研究者相信，该数据集的发布为改进未来的意大利语数学和语言理解模型铺平了道路。

Abstract

While Italian is by all metrics a high resource language, currently, there are isn't a Language Model pre-trained exclusively in this language. This results in a lower number of available benchmarks to evaluate the performance of language models in Italian. This work presents two new b

italian language language models mathematical understanding language understanding benchmark

发现论文，激发创造

Disce aut Deficere：评估 LLMs 对 INVALSI 意大利基准的熟练度

该研究介绍一种基于 ITALIAN EDUCATIONAL COMPETENCIES 的结构化基准测试来评估大型语言模型（LLMs），并提供它们在 LINGUISTIC VERSATILITY、CULTURAL RELEVANCE 和 BENCHMARK EVALUATION 等方面的性能比较。

Jun, 2024

IrokoBench：大型语言模型时代的非洲语言新基准

本研究使用 IrokoBench 数据集对低资源的非洲语言进行了零样本学习、少样本学习和翻译测试，并发现了高资源语言和低资源非洲语言之间的显著性能差距。机器翻译测试集从而改善了一些以英语为中心的大型模型的表现，结果表明需要更多的努力来开发和适应非洲语言的大型语言模型。

Jun, 2024

RuMedBench: 俄语医学语言理解基准

该论文描述了一个开放的俄罗斯医学语言理解基准，包括分类、问答、自然语言推理、命名实体识别等多种任务类型，以及新的文本集合，提供统一格式标注、数据分割和评估指标，还实现了多个基准模型，从简单模型到具有变形金刚架构的神经网络模型，预计高级模型表现更好，但即使是简单模型在某些任务上也可以得到不错的结果。

Jan, 2022

SCALE：高级语言模型评估复杂度的扩展

该研究引入了一个基于瑞士法律系统的多维 NLP 基准测试，包括长文本处理、领域特定知识拥有、多语言理解、多任务等挑战，该基准测试可以用于测试和推广最先进的 LLMs 模型。

Jun, 2023

ConceptMath：大型语言模型数学推理的双语概念评估基准

本研究介绍了 ConceptMath，它是一个双语（英文和中文）的细粒度基准，用于评估大型语言模型的概念级数学推理能力。与评估一般数学推理平均准确率的传统基准不同，ConceptMath 通过将数学问题按照数学概念的层次进行系统组织，从而可以用概念级准确率评估数学推理能力的不同细粒度。在基于我们的 ConceptMath 的基础上，我们评估了广泛范围的大型语言模型，并观察到现有的大型语言模型尽管在传统基准上具有高平均准确率，但在不同数学概念上存在显著的性能差异，甚至在最基本的概念上可能出现灾难性失误。此外，我们还介绍了一种高效的微调策略，以提高现有大型语言模型的弱点。最后，我们希望 ConceptMath 能够指导开发人员了解其模型的细粒度数学能力，并促进基础模型的进一步发展。

Feb, 2024

MathBench：利用分层数学基准评估 LLMs 的理论和应用水平

通过 MathBench 新的基准测试，我们能够全面评估大型语言模型在数学能力方面的表现，首次提供了一个多维度视角，从基础算术到大学数学的不同阶段评估模型的能力，旨在提高对大型语言模型在数学能力方面的评估，为其知识水平和问题解决技能提供更深入的理解。

May, 2024

生成人工智能时代下的大型语言模型评估标准的不足

通过以人、过程和技术为视角，功能性和安全性为支柱，使用我们的统一评估框架，对 23 个最先进的 LLM 基准进行了研究，发现了显著的限制，并强调了在人工智能进步的背景下，标准化方法、监管确定性和伦理指南的迫切需求，以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。

Feb, 2024

SciBench：评估大规模语言模型的大学科学问题解决能力

最近大型语言模型 (LLM) 在许多数学基准上取得显著进展，但大多数基准只涉及初高中科目的问题和多项选择题，且仅限于有限范围的基本算术操作。为解决这些问题，本文引入了一个广泛的基准套件 SciBench，旨在系统地检验复杂科学问题解决所需的推理能力。SciBench 包含两个精心策划的数据集：一个开放集，包含从数学、化学和物理教科书中提取的多领域的大学级科学问题；一个封闭集，包含了计算机科学和数学本科考试中的问题。基于这两个数据集，我们对两个代表性 LLM 进行了深入的基准研究，采用多种提示策略。结果表明，当前 LLM 的表现不尽如人意，综合得分仅为 35.80%。此外，通过详细的用户研究，我们将 LLM 的错误归类为十种问题解决能力。我们的分析表明，没有一种单一的提示策略明显优于其他策略，而且一些策略在某些问题解决技能上的提高会导致其他技能下降。我们预计 SciBench 将催生 LLM 的推理能力进一步发展，从而最终促进科学研究和发现。

Jul, 2023

衡量统计语言模型进展的十亿词基准

该论文提出了一种新的基准语料库，用于衡量统计语言建模的进展，探讨了多种语言模型的性能表现，通过使用长短时记忆模型，降低模型复杂度来改善模型性能，实现了对语言模型的快速评估，并提出了相应的语言模型技巧，解决了语言建模中存在的困难。

Dec, 2013

西班牙语和 LLM 基准：MMLU 是否被翻译迷失？

评估大型语言模型在其他语言中表现的质量，并修正翻译错误以及适应目标语言的测试项是改进非英语语言基准测试的关键。

May, 2024