跨语言自动评估多语言大模型的评估
大语言模型(LLMs)的评估方法是研究这些模型的重要组成部分,这篇综述介绍了评估LLMs的方法和维度,并总结了LLMs在不同任务中的成功案例、失败案例和未来挑战。
Jul, 2023
通过对大型语言模型的评估,本文发现LLM-based evaluators在多语言评估方面可能存在偏差,并需要使用本地语言的数据集进行校准。
Sep, 2023
我们对基于文本重叠和大型语言模型判断的自动化方法在广泛任务和跨语言环境中的可靠性进行了研究,发现自动评估方法与人类评估者之间的相关性在任务类型不同的情况下存在相当大的变异性。尽管自动评估方法在特定条件下可以近似人类判断,但其可靠性高度依赖于上下文。这些发现强化了我们在开发和评估面向指导的大型语言模型时如何应用和解释自动化方法的理解。
Feb, 2024
我们提出了一个针对多语言情景下LLMs作为评估器的端到端评估框架,并创建了一个用于评估LLM-based评估器的精心策划的数据集,该数据集覆盖10种语言,包含本族语言者对摘要任务的判断。我们比较了基于GPT-3.5-Turbo、GPT-4和PaLM2创建的LLM-based评估器的性能,结果表明,基于GPT-4的LLM-based评估器在各种语言中表现最好,而GPT-3.5-Turbo的表现不佳。此外,我们对LLM-based评估器提供的推理进行分析,发现它往往与人类评判所提供的推理不一致。
Apr, 2024
对多语言语言模型进行评估,提出可靠的评估实践方向,通过机器翻译研究其在低资源语言上的性能,并发现简化的基准模型能够取得相对强的性能表现。
Jun, 2024
本研究评估了多语种大型语言模型的性能,发现GPT-4o和Llama-3 70B模型在大多数Indic语言中表现最佳。我们构建了两个评估设置的排行榜,并分析了人类评估和语言模型评估之间的一致性,发现在两两比较的设置下,人类和语言模型的一致性较高,但在直接评估中特别是对于孟加拉语和奥迪亚语等语言,一致性下降。我们还检测了人类和语言模型评估中的各种偏见,并发现GPT评估器存在自我偏见。本研究对多语种大型语言模型的评估具有重要意义。
Jun, 2024
本研究解决了在多种欧洲语言中对大型语言模型(LLM)进行一致且有意义评估的挑战,尤其是多语种基准稀缺的问题。我们提出了一种针对欧洲语言的跨语言评估方法,利用翻译的五个广泛使用的基准测试评估40个LLM在21种欧洲语言中的能力,创建了新的多语种评估框架和数据集,从而推动了多语种LLM评估的进一步研究。
Oct, 2024
本研究针对大型语言模型在非英语环境中作为评估工具效果不足的问题,提出了一个多语言的评价基准MM-Eval,该基准覆盖了18种语言和六种类别。研究发现,现有语言模型在非英语评估中的效能有显著提升空间,并且存在对低资源语言给予中间分数的倾向。
Oct, 2024
本研究面临传统评估指标趋于饱和的问题,提出了一种将现有大语言模型评估转化为逐渐增加难度任务的通用方法,以强调推理能力并揭示原始评估中不明显的性能差异。通过创建新的多项选择测试语料库并进行系列评估,我们的发现揭示了模型间推理能力的比较,尤其突显了OpenAI的o1-preview和Google的gemini-pro-1.5-002之间的区别。
Nov, 2024
本文解决了传统大语言模型(LLM)评估指标饱和的问题,提出了一种将现有评估转化为一系列逐步加难任务的新方法。研究结果揭示了不同模型之间的推理能力差异,尤其对OpenAI的o1-preview和Google的gemini-pro-1.5-002模型进行了有效的比较。
Nov, 2024