西班牙语和 LLM 基准：MMLU 是否被翻译迷失？

May, 2024

西班牙语和 LLM 基准：MMLU 是否被翻译迷失？

Spanish and LLM Benchmarks: is MMLU Lost in Translation?

Irene Plaza, Nina Melero, Cristina del Pozo, Javier Conde, Pedro Reviriego...

TL;DR评估大型语言模型在其他语言中表现的质量，并修正翻译错误以及适应目标语言的测试项是改进非英语语言基准测试的关键。

Abstract

The evaluation of large language models (LLMs) is a key element in their continuous improvement process and many benchmarks have been developed to assess the performance of LLMs in different tasks and topics. As

evaluation large language models llm benchmarks translation quality mmlu benchmark

发现论文，激发创造

超越静态模型和测试集：在任务和语言间评测预训练模型的潜力

本文提出了一种利用语言数据和语言类型学特征来预测跨语种语言模型性能的方法，以此取代传统基于翻译的方法评估系统，该方法表现良好并且能够可靠地估计模型在不同语言上的表现。

May, 2022

LLM 翻译中的重要语言特征和语言

基于大型语言模型（LLMs），本研究评估了 Llama2 在机器翻译方面的能力，并探讨了对训练数据中语言的依赖性。实验证明，7B 规模的 Llama2 模型对其已见过的所有语言都具有 10 BLEU 分数以上，但对未见过的语言不一定如此。我们的语言距离分析表明，句法相似性并非决定翻译质量的主要语言因素。有趣的是，我们发现在特定条件下，某些语言虽然训练数据明显少于英语，却与英语具有可比较的强相关性。本研究结果为目前 LLMs 的发展提供了新的视角，提出了以非英语语言为中心构建多语言模型的可能性。

Feb, 2024

大语言模型的多语言机器翻译：实证结果和分析

本文系统地研究了大型语言模型在多语言机器翻译中的优势和挑战，并在 102 种语言上评估了 XGLM、OPT、BLOOMZ 和 ChatGPT 四种常见模型的性能。在进一步分析中，本文发现大型语言模型在多语言机器翻译中具有一些新的工作方式。

Apr, 2023

CMMLU: 用于测量中文海量多任务语言理解的工具

本文介绍了一个涵盖自然科学、社会科学、工程学和人文学科等多个领域的全面中文基准 CMMLU，并通过评估 18 种面向性能的多语言和中文 LLMs，在不同的主题和设置下评估它们的性能，结果显示，大多数现有 LLM 在提供上下文示例和思维链提示时仍然难以达到 50% 的平均准确性，而随机基准线为 25%，这凸显出 LLMs 有显着的改进空间。

Jun, 2023

超越指标：评估 LLM 在文化细微、资源贫乏的真实场景中的有效性

评估了在多语言和代码混合通信环境中使用的七个领先大型语言模型（LLMs）的情感分析性能，发现 GPT-4 和 GPT-4-Turbo 在理解语言输入和处理上下文信息方面表现出色，与人的一致性高且决策过程透明，但在非英语环境中的文化细微差别方面存在不稳定性，结果强调了 LLMs 不断改进以有效应对文化差异、资源有限的真实世界环境的必要性。

Jun, 2024

翻译是唯一需要吗？关于使用大型语言模型解决多语言任务的研究

我们提倡更多的努力来开发强大的多语种语言模型，而不仅仅是以英语为中心的语言模型。

Mar, 2024

分析多语言 LLM 在多轮指令跟踪中的能力：阿拉伯语的案例研究

在小众语言如阿拉伯语中，我们详细研究了开放式大型语言模型在回应多轮指令方面的能力，并利用自定义的阿拉伯文翻译的 MT-Bench 基准套件和 GPT-4 作为评估工具，对英文和阿拉伯文进行了综合评估和比较，结果表明在不同任务类别（逻辑和文学）以英文或阿拉伯文指令时，模型的回答会有所差异。我们发现，使用多语言和多轮次数据集进行微调的基础模型与从头开始使用多语言数据训练的模型具有竞争力。最后，我们假设一组小型、开放式大型语言模型在基准测试中具有与专有模型相当的性能。

Oct, 2023

基于大型语言模型的评估器能够解决多语种评估的扩展问题吗？

通过对大型语言模型的评估，本文发现 LLM-based evaluators 在多语言评估方面可能存在偏差，并需要使用本地语言的数据集进行校准。

Sep, 2023

生成人工智能时代下的大型语言模型评估标准的不足

通过以人、过程和技术为视角，功能性和安全性为支柱，使用我们的统一评估框架，对 23 个最先进的 LLM 基准进行了研究，发现了显著的限制，并强调了在人工智能进步的背景下，标准化方法、监管确定性和伦理指南的迫切需求，以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。

Feb, 2024

衡量台灣普通話語言理解能力

该研究针对传统汉语在现有基准测试中的低覆盖率，提出了适用于评估大型语言模型的 TMLU 综合评估工具，通过中学到专业水平的 37 个科目以及对每个科目进行链式思考式的少样本解释，基于 24 个优秀的语言模型的广泛实验证明汉语公开权重模型在复杂推理能力上表现较差，而适用于台湾国语的开放权重模型也相对于简体中文版本存在差距，研究发现存在提升潜力，强调了培养本土化台湾国语大型语言模型的目标，并公开了基准测试和评估脚本以促进未来研究。

Mar, 2024