多语言评估的注意事项：平均值不足以说明问题

Jan, 2023

多语言评估的注意事项：平均值不足以说明问题

Average Is Not Enough: Caveats of Multilingual Evaluation

Matúš Pikuliak, Marián Šimko

TL;DR本文讨论多语言评估的问题，提出了基于比较语言学的定性分析方法来检测单一语言家族偏见所带来的语言偏差，并以使用 URIEL 类型数据库的可视化效果作为案例展示。

Abstract

This position paper discusses the problem of multilingual evaluation. Using simple statistics, such as average language performance, might inject linguistic biases in favor of dominant language families into eval

multilingual evaluation linguistic biases comparative linguistics case study visualization

发现论文，激发创造

透明比较多语言自然语言处理数据集中的语言多样性的一种度量

提出了一种评估数据集语言多样性的方法，通过比较语言特征集合的 Jaccard 指数来分析，发现大部分流行的多语种数据集中缺乏多种语言类型，特别是 (poly) synthetic languages。

Mar, 2024

超越静态模型和测试集：在任务和语言间评测预训练模型的潜力

本文提出了一种利用语言数据和语言类型学特征来预测跨语种语言模型性能的方法，以此取代传统基于翻译的方法评估系统，该方法表现良好并且能够可靠地估计模型在不同语言上的表现。

May, 2022

大型语言模型不是公正的评估器

本文发现了采用大型语言模型（LLMs）作为评判器来评分候选模型生成内容质量的评估范式中的系统偏差。作者提出了两种校准策略来解决这个问题。经过广泛实验，这种方法成功缓解了评估偏差，与人类判断更加接近。为了促进更加强大的大型语言模型比较的未来研究，作者将文章中的技术集成到一个易于使用的工具包 FairEval 中，同时结合了人工注释。

May, 2023

SeaEval 用于多语言基础模型：从跨语言对齐到文化推理

SeaEval 是一个多语种基础模型的评估基准，研究了模型对自然语言的理解、推理能力以及对文化实践、细微差别和价值观的理解。研究发现模型在给予释义指令时表现出不同的行为，许多模型仍存在曝光偏差，对于根源于事实、科学和常识知识的问题，多语种查询的一致性响应预期是相同的，然而大多数模型在这些查询上令人意外地表现出不一致的性能，需要更具有泛化能力的语义表示和增强的多语种上下文化能力。SeaEval 可用于多语种和文化情景下的更全面的调查和评估。

Sep, 2023

跨越英语的语言模型公平性：现存问题与挑战

本研究调查了多语言和非英文环境下公平性问题，并强调当前研究的不足之处及因英语环境限制所面临的挑战。作者认为，在构建公平性数据集方面，世界上众多多样化的文化和语言使得实现全面覆盖变得不可行，因此需超越当前仅仅集中在特定维度和类型偏见的数据集驱动方法，以便在不同的语言和文化间实现扩展。

Feb, 2023

自然语言评估中去偏置自动度量的代价

本文提出使用控制变量方法，结合自动评价指标与人工评价来获取代价较低的无偏估计，在对文摘和开放式问题回答进行评估时，可以实现 7-13% 的代价降低，同时强调了自动评价指标和提示方式是进一步降低代价的关键瓶颈。

Jul, 2018

关于量化语言相似性的可重复性研究：在 URIEL 知识库中缺失值的影响

本研究重点研究的是一个广泛使用的语言学知识库 URIEL，在量化语言相似性方面的方法准确性和可复现性存在问题，尤其在处理缺失值和低资源语言方面存在模糊性，这使得数据库的可靠性受到了影响。

May, 2024

评估和减轻多语言环境中的性别偏见

这项研究探讨在多语言环境中评估和减少性别偏见在语言模型中的挑战，并通过 DisCo 扩展到不同的印度语言来创建了一个评估预训练屏蔽语言模型中性别偏见的基准，同时评估了各种方法对 SOTA 大规模多语言模型减轻此类偏见的有效性。

Jul, 2023

跨语言综合偏差：扩展描述和模式以揭示大规模语言中的人口统计学偏差

介绍了一个多语言扩展的 HOLISTICBIAS 数据集，提供了一个综合的人称参考英语模板分类法，旨在发现人口统计不平衡并量化缓解措施。初步研究表明，在评估平均人类阅读者时，EN-to-XX 翻译的质量比女性更好，而对于主题相同但性别不同的情况，则男性翻译平均比女性更好。在将句子嵌入到联合多语言句子表示空间时，我们发现对于大多数语言，男性翻译与英语中性句子更接近。

May, 2023

MELA：多语言语言可接受性评估

我们介绍了首个多语言语言可接受性基准 MELA，并在 48K 个样本中涵盖了 10 种语言，从不同的语言家族中选择。我们分析了经过精调的 XLM-R 的权重，探索了语言之间的转移困难，结果显示 ChatGPT 得益于上下文实例，但仍落后于精调的 XLM-R；而 GPT-4 在零 - shot 设置中与精调的 XLM-R 的性能相当。跨语言和多任务学习实验表明，在语言可接受度判断中，与语义任务不同，语言内的训练数据至关重要。我们还引入了冲突权重的概念，该概念可能是跨语言转移困难的潜在指标。

Nov, 2023