METAL：面向多语言元评估

Apr, 2024

METAL: Towards Multilingual Meta-Evaluation

Rishav Hada, Varun Gumma, Mohamed Ahmed, Kalika Bali, Sunayana Sitaram

TL;DR我们提出了一个针对多语言情景下LLMs作为评估器的端到端评估框架，并创建了一个用于评估LLM-based评估器的精心策划的数据集，该数据集覆盖10种语言，包含本族语言者对摘要任务的判断。我们比较了基于GPT-3.5-Turbo、GPT-4和PaLM2创建的LLM-based评估器的性能，结果表明，基于GPT-4的LLM-based评估器在各种语言中表现最好，而GPT-3.5-Turbo的表现不佳。此外，我们对LLM-based评估器提供的推理进行分析，发现它往往与人类评判所提供的推理不一致。

Abstract

With the rising human-like precision of large language models (llms) in numerous tasks, their utilization in a variety of real-world applications is becoming more prevalent. Several studies have shown that

发现论文，激发创造

对大型语言模型评估的调查

大语言模型（LLMs）的评估方法是研究这些模型的重要组成部分，这篇综述介绍了评估LLMs的方法和维度，并总结了LLMs在不同任务中的成功案例、失败案例和未来挑战。

Jul, 2023

基于大型语言模型的评估器能够解决多语种评估的扩展问题吗？

通过对大型语言模型的评估，本文发现LLM-based evaluators在多语言评估方面可能存在偏差，并需要使用本地语言的数据集进行校准。

Sep, 2023

大型语言模型的评估存在不一致和偏见

本研究通过使用SummEval数据集进行一系列分析，证实了大型语言模型作为评估器在以下方面存在偏见和不一致性：（1）体现对低困惑度文本的偏好；（2）显示具有偏见的评分分布；（3）经历多属性判断时的锚定效应。此外，我们分享了配置大型语言模型评估器以减轻这些限制的方法，通过RoSE数据集的实验证明了与最先进的大型语言模型评估器相比的改进。

May, 2024

多语言自然语言处理中的评估实践：机器翻译能否替代人工翻译？

对多语言语言模型进行评估，提出可靠的评估实践方向，通过机器翻译研究其在低资源语言上的性能，并发现简化的基准模型能够取得相对强的性能表现。

Jun, 2024

PARIKSHA：多语言和跨文化数据上人类LLM评估者一致性的大规模调查

本研究评估了多语种大型语言模型的性能，发现GPT-4o和Llama-3 70B模型在大多数Indic语言中表现最佳。我们构建了两个评估设置的排行榜，并分析了人类评估和语言模型评估之间的一致性，发现在两两比较的设置下，人类和语言模型的一致性较高，但在直接评估中特别是对于孟加拉语和奥迪亚语等语言，一致性下降。我们还检测了人类和语言模型评估中的各种偏见，并发现GPT评估器存在自我偏见。本研究对多语种大型语言模型的评估具有重要意义。

Jun, 2024

面向欧洲语言的跨语言大型语言模型评估

本研究解决了在多种欧洲语言中对大型语言模型（LLM）进行一致且有意义评估的挑战，尤其是多语种基准稀缺的问题。我们提出了一种针对欧洲语言的跨语言评估方法，利用翻译的五个广泛使用的基准测试评估40个LLM在21种欧洲语言中的能力，创建了新的多语种评估框架和数据集，从而推动了多语种LLM评估的进一步研究。

Oct, 2024

跨语言自动评估多语言大模型的评估

本研究解决了现有自然语言处理评估方法主要集中于英语，而缺乏多语言评估框架的问题。提出的跨语言自动评估套件（CIA Suite）和评估模型Hercule，利用英语参考答案为低资源语言的文本生成赋分，实验结果显示其评估结果与人类判断高度一致，具有重要的多语言评估潜力和影响。

Oct, 2024

MM-Eval：一种多语言元评估基准，用于将大型语言模型作为评审者和奖励模型

本研究针对大型语言模型在非英语环境中作为评估工具效果不足的问题，提出了一个多语言的评价基准MM-Eval，该基准覆盖了18种语言和六种类别。研究发现，现有语言模型在非英语评估中的效能有显著提升空间，并且存在对低资源语言给予中间分数的倾向。

Oct, 2024

增强大语言模型评估：模糊技巧

本研究面临传统评估指标趋于饱和的问题，提出了一种将现有大语言模型评估转化为逐渐增加难度任务的通用方法，以强调推理能力并揭示原始评估中不明显的性能差异。通过创建新的多项选择测试语料库并进行系列评估，我们的发现揭示了模型间推理能力的比较，尤其突显了OpenAI的o1-preview和Google的gemini-pro-1.5-002之间的区别。

Nov, 2024

增强大语言模型评估：混淆技巧

本文解决了传统大语言模型（LLM）评估指标饱和的问题，提出了一种将现有评估转化为一系列逐步加难任务的新方法。研究结果揭示了不同模型之间的推理能力差异，尤其对OpenAI的o1-preview和Google的gemini-pro-1.5-002模型进行了有效的比较。

Nov, 2024