TurkishMMLU：测量土耳其语的大规模多任务语言理解

Jul, 2024

TurkishMMLU：测量土耳其语的大规模多任务语言理解

TurkishMMLU: Measuring Massive Multitask Language Understanding in Turkish

Arda Yüksel, Abdullatif Köksal, Lütfi Kerem Şenel, Anna Korhonen, Hinrich Schütze

TL;DR通过引入第一个多任务、多项选择土耳其问答基准测试 TurkishMMLU，评估了大型语言模型对土耳其语的理解能力。该基准测试包括来自土耳其高中教育课程的9个不同科目的10,000多个问题，通过对超过20种语言模型进行深入评估，提供了对当前语言模型在土耳其能力和局限性的详细分析。

Abstract

multiple choice question answering tasks evaluate the reasoning, comprehension, and mathematical abilities of Large Language Models (llms). While existing benchmarks employ automatic translation for →

发现论文，激发创造

M3Exam：一个用于检验大型语言模型的多语言、多模态、多级别基准

该论文介绍了一种利用人类考试题目来全面评估大型语言模型（LLMs）的基准测试M3Exam，该测试具有多语言、多模态和多级结构的特点，在低资源和非拉丁语文本方面，当前模型（包括GPT-4）仍然难以应对多语言文本，同时多模态LLMs在复杂多模态问题上表现不佳。

Jun, 2023

超越答案：评估大型语言模型的多项选择题答题合理性审查

大语言模型在自然语言处理领域中具有重要意义，然而现有的以多项选择问答作为评估方法的基准测试并未能充分捕捉到大语言模型的真实能力，需要更加健全的评估机制来衡量其性能。

Feb, 2024

阿拉伯语MMLU: 评估阿拉伯语的大规模多任务语言理解

评估语言模型、阿拉伯语多任务语言理解基准、模型性能

Feb, 2024

使用MultiQ评估大型语言模型的基础多语言能力

研究表明，尽管当前大部分开放式语言模型主要面向英语或少数几种高资源语言，人们却在多种语言中使用这些模型。本文通过引入MultiQ标准测试并评估27.4k个不同语言的基本开放式问答问题，探讨了现有开放式语言模型在超越其预定用途方面的多语言能力。通过研究发现，在一些语言中，这些模型在回答问题时表现得既忠实又准确，而大多数模型在忠实于回答问题时的准确性更高，但在某些语言中模型的准确性和忠实度都较低。我们还探讨了分词对这些发现的潜在解释，发现了可能存在的相关性，值得进一步研究。

Mar, 2024

重新思考基于生成的大型语言模型对语义理解的评估

通过对24种模型的11个评估标准进行综合评估，本文首先回顾了当前的评估方法——多项选择题回答（MCQA），并突出了MCQA的一些潜在缺点，接着引入了RWQ-Elo评分系统，通过24种大型语言模型的竞争性对战，模拟现实世界的使用情景，最后分析了系统特点、与先前排行榜的对比，揭示了RWQ-Elo系统的稳定性、注册新模型的可行性和其重塑LLM排行榜的潜力。

Mar, 2024

多选题是否能够有效地检测LLM的能力？

在这篇论文中，我们评估了九个大语言模型在两种语言（中文和英文）的四个问答数据集上的表现，发现大语言模型在双语的多选题中存在一种顺序敏感性，竞争第一位置的选项更容易被选择，与此同时我们提出了两种衡量大语言模型输出一致性和置信度的方法，并发现多选题相较长篇生成题在一致性和预期校准误差方面较不可靠。

Mar, 2024

土耳其语语言模型的性能比较

本研究目的是填补文献中关于土耳其语的各种开源语言模型的性能比较的空白，通过比较七个选择的语言模型在上下文学习和问答能力方面的表现，发现继续在 fine-tuning 之前进行预训练的指导数据集可以更好地适应土耳其语的多语种模型，并且上下文学习的表现与问答的表现关系不大。

Apr, 2024

穿越博斯普鲁斯海峡：通过低资源语言适应和基准测试推进土耳其大型语言模型

通过研究低资源语言，对训练策略、模型选择、数据可用性和知识传递等问题进行深入分析，以进一步推进低资源语境下大型语言模型 (LLMs) 的发展，使自然语言处理 (NLP) 的益处更广泛可及。

May, 2024

利用大型语言模型自动化生成土耳其教育测验

这项研究通过使用大型语言模型自动生成土耳其教育内容的问答题，介绍了一种从教育内容中生成测验的新方法，为土耳其教育环境量身定制的教育技术开创了先河。同时，通过将这些语言模型应用于土耳其教育材料中，为自动化土耳其测验生成开辟了新的途径。

Jun, 2024

CaLMQA: 跨23种语言探索跨文化特定长篇问答

通过介绍CaLMQA，一个涵盖23种语言的2.6K多样化问题集，我们发现大型语言模型在生成复杂问题的长篇答案时在某些低资源语言方面的质量明显下降，这突显了LLM多语言能力和非英语长篇问题回答评估中进一步研究的需求。

Jun, 2024