BLUEX：基于巴西顶尖大学入学考试的基准测试

Jul, 2023

BLUEX：基于巴西顶尖大学入学考试的基准测试

BLUEX: A benchmark based on Brazilian Leading Universities Entrance eXams

Thales Sales Almeida, Thiago Laitz, Giovana K. Bonás, Rodrigo Nogueira

TL;DRBLUEX 数据集为评价自然语言理解和推理在葡萄牙语中的最先进技术提供了基准，并标注了图像在每个问题中的位置，是推进多模态语言理解和推理技术的宝贵资源。

Abstract

One common trend in recent studies of language models (LMs) is the use of standardized tests for evaluation. However, despite being the fifth most spoken language worldwide, few such evaluations have been conduct

language models portuguese evaluation bluex dataset multimodal language understanding

发现论文，激发创造

评估 GPT-4 在巴西大学入学考试中的视觉能力

通过综合文本和视觉元素，对语言模型在入学考试上进行评估的综合框架表明 GPT-4 在处理复杂多学科问题方面具有最先进的能力，但数学问题仍然是这些模型的挑战。

Nov, 2023

PORTULAN ExtraGLUE 数据集和模型：启动葡萄牙语神经处理基准测试

借助对葡萄牙语神经模型的研究，我们提供了一套用于多种语言处理任务的数据集合，以及针对这些下游任务进行细调的神经语言模型集合。通过使用最先进的翻译引擎将数据集从英语机器翻译成葡萄牙语，以与文献中的主流基准相结合，启动了葡萄牙语的对应数据集。由此产生的 PORTULAN ExtraGLUE 基准是未来葡萄牙语研究的基础，可以在后续工作中进行改进。类似地，我们使用低秩适应方法开发的相应细调神经语言模型作为基准可促进葡萄牙语神经处理的未来工作。所有数据集和模型都已开发并可用于葡萄牙语的两个变体：欧洲葡萄牙语和巴西葡萄牙语。

Apr, 2024

EXAMS：多语种跨语言问题回答的多科目高中考试数据集

提出了 EXAMS—— 高中跨语言和多语言问答的新基准数据集。收集了超过 24,000 个高质量的高中考试问题，涵盖了 8 个语言家族和 24 个学科，其中包括自然科学和社会科学等。

Nov, 2020

评估语言模型中的语言推广能力：面向巴西葡萄牙语的数据集

本研究提出了一种评估方法，针对用于巴西葡萄牙文的语言模型，通过固定的语言格式，考察语言信息的编码方式，评估不同的语言模型在处理语法结构和多词表达方面的泛化能力，解决了语言模型黑盒且缺乏可解释性的问题。

May, 2023

评估 GPT-3.5 和 GPT-4 模型在巴西大学入学考试中的表现

本研究通过分析 GPT-3.5 和 GPT-4 对 Exame Nacional do Ensino Médio 的表现以及不同提示策略的测试，旨在探讨语言模型在解决跨学科知识问题的高风险选择题方面的能力。 2022 年版的 GPT-4 with CoT 模型表现最佳，精度达到了 87％。

Mar, 2023

LEXTREME：法律领域的多语言和多任务基准

使用 Transformer 架构的进步，促进了法律 NLP 领域的发展。为了评估其发展，需要有好的基准数据集。但是目前大部分基准数据集只有英文，而且其中缺少多语言数据集。为此，作者选择了 11 个涵盖 24 种语言的数据集，并创建了 LEXTREME。该工作提出了两种聚合得分，一种基于数据集，一种基于语言。最佳基线模型（XLM-R large）的数据集聚合得分和语言聚合得分均为 61.3，表明 LEXTREME 仍具有很高的挑战难度。为了方便研究人员和从业者使用，作者将 LEXTREME 公开在了 huggingface 并提供了所有用于评估模型的代码以及包括所有运行结果的 public Weights and Biases 项目。

Jan, 2023

XTREME: 用于评估跨语言通用化的大规模多语言多任务基准数据集

该论文介绍了一个名为 XTREME 的跨语言多任务基准测试，它可以在 40 种语言和 9 个任务上评估多语言表示的跨语言泛化能力，研究表明，跨语言模型在句法和句子检索任务上的性能仍有相当大的差距，该基准测试旨在促进跨语言学习方法的研究。

Mar, 2020

CodeApex: 大型语言模型的双语编程评估基准

CodeApex 是一个双语基准数据集，专注于评估大型语言模型（LLMs）在编程理解和代码生成能力上。数据集由三种类型的多项选择题组成，用于评估 LLMs 在编程理解任务上的能力，同时利用算法问题和相应的测试用例来评估 LLMs 生成的代码质量。通过评估包括通用和专用模型在内的 14 个先进 LLMs，发现 GPT 展现出最佳的编程能力，在两个任务上分别达到了约 50% 和 56% 的准确率。希望 CodeApex 能够作为评估 LLMs 编码能力的参考，进一步推动其发展和增长。

Sep, 2023

XTREME-R: 朝着更具挑战性和细致多语言评估迈进

本文研究运用机器学习技术进行多语言自然语言处理的现状，通过对 XTREME-R 的介绍和使用提出跨语言转移学习的方法，并提供一个交互式公共排行榜和 XTREME-R 的代码以拓展其应用领域。

Apr, 2021

CBLUE：一个中文生物医学语言理解评估基准

本文介绍了第一个中文生物医学语言理解基准评估（CBLUE），其涵盖了一系列自然语言处理任务，包括命名实体识别、信息抽取、临床诊断标准化、单句 / 句对分类，与相应的在线平台进行模型评估、比较和分析，并通过当前的 11 个预训练中文模型的实证结果表明，优秀的神经模型表现远低于人类水平。

Jun, 2021