多语言清单：生成与评估

ACLMar, 2022

Multilingual CheckList: Generation and Evaluation

Karthikeyan K, Shaily Bhatt, Pankaj Singh, Somak Aditya, Sandipan Dandapat...

TL;DR本文介绍了一种使用机器翻译自动提取目标语言的 CheckList 模板的算法，以及将其与不同水平的人工干预下创建的 CheckList 进行比较的度量方法，并探讨对印地语和其他九种语言进行 CheckList 创作的不同方法，最终得出 TEA 加上人工干预的方法最适合将基于 Checklist 的评估扩展到多种语言，并且通过 TEA 可以很好地估算模型的性能。

Abstract

multilingual evaluation benchmarks usually contain limited high-resource languages and do not test models for specific linguistic capabilities. c

multilingual evaluation benchmarks linguistic capabilities checklist template extraction algorithm machine translation

发现论文，激发创造

代码生成模型的多语言评估

本文提出了新的基准测试，包括 MBXP，Multilingual HumanEval 和 MathQA-X，以测试多语言环境下代码生成模型的性能，并发现了多语言模型的优势，以及通过 few-shot prompting 实现对模型新语言的教学能力和在单语言环境下的 zero-shot translation 能力。同时，作者还利用其代码生成模型在多种语言上实现了大规模引导过程，产生了其他与代码相关的评估任务中使用的合成规范解决方案。

Oct, 2022

MELA：多语言语言可接受性评估

我们介绍了首个多语言语言可接受性基准 MELA，并在 48K 个样本中涵盖了 10 种语言，从不同的语言家族中选择。我们分析了经过精调的 XLM-R 的权重，探索了语言之间的转移困难，结果显示 ChatGPT 得益于上下文实例，但仍落后于精调的 XLM-R；而 GPT-4 在零 - shot 设置中与精调的 XLM-R 的性能相当。跨语言和多任务学习实验表明，在语言可接受度判断中，与语义任务不同，语言内的训练数据至关重要。我们还引入了冲突权重的概念，该概念可能是跨语言转移困难的潜在指标。

Nov, 2023

Suvach -- 生成的印地语 QA 基准

为了在印度语中评估问答（QA）的当前评估基准，常常依赖于现有英语数据集的机器翻译。这种方法存在机器翻译中固有的偏见和不准确性，导致可能不能反映印度语 EQA 模型真实能力的数据集。本文提出了一个专门设计用于评估印度语 EQA 模型的新基准，并讨论了同样用于任何任务的方法。该方法利用大型语言模型（LLMs）在提取的环境中生成高质量的数据集，确保其对目标语言的相关性。我们相信这个新资源将通过提供更准确可靠的评估工具来促进印度语 NLP 研究的进展。

Apr, 2024

MLQA：评估跨语言抽取式问答

该研究提出了一个名为 MLQA 的多语言提取式问答（QA）评估基准，旨在推动跨语言 QA 研究。 MLQA 包含 7 种语言的 QA 实例，并使用一种新颖的对齐上下文策略，基于 Wikipedia 文章构建，以此作为现有提取式 QA 数据集的跨语言扩展。

Oct, 2019

METAL：面向多语言元评估

我们提出了一个针对多语言情景下 LLMs 作为评估器的端到端评估框架，并创建了一个用于评估 LLM-based 评估器的精心策划的数据集，该数据集覆盖 10 种语言，包含本族语言者对摘要任务的判断。我们比较了基于 GPT-3.5-Turbo、GPT-4 和 PaLM2 创建的 LLM-based 评估器的性能，结果表明，基于 GPT-4 的 LLM-based 评估器在各种语言中表现最好，而 GPT-3.5-Turbo 的表现不佳。此外，我们对 LLM-based 评估器提供的推理进行分析，发现它往往与人类评判所提供的推理不一致。

Apr, 2024

超越静态模型和测试集：在任务和语言间评测预训练模型的潜力

本文提出了一种利用语言数据和语言类型学特征来预测跨语种语言模型性能的方法，以此取代传统基于翻译的方法评估系统，该方法表现良好并且能够可靠地估计模型在不同语言上的表现。

May, 2022

西班牙语和 LLM 基准：MMLU 是否被翻译迷失？

评估大型语言模型在其他语言中表现的质量，并修正翻译错误以及适应目标语言的测试项是改进非英语语言基准测试的关键。

May, 2024

XTREME: 用于评估跨语言通用化的大规模多语言多任务基准数据集

该论文介绍了一个名为 XTREME 的跨语言多任务基准测试，它可以在 40 种语言和 9 个任务上评估多语言表示的跨语言泛化能力，研究表明，跨语言模型在句法和句子检索任务上的性能仍有相当大的差距，该基准测试旨在促进跨语言学习方法的研究。

Mar, 2020

多语言自然语言处理中的评估实践：机器翻译能否替代人工翻译？

对多语言语言模型进行评估，提出可靠的评估实践方向，通过机器翻译研究其在低资源语言上的性能，并发现简化的基准模型能够取得相对强的性能表现。

Jun, 2024

基于大型语言模型的评估器能够解决多语种评估的扩展问题吗？

通过对大型语言模型的评估，本文发现 LLM-based evaluators 在多语言评估方面可能存在偏差，并需要使用本地语言的数据集进行校准。

Sep, 2023