阿拉伯语 MMLU: 评估阿拉伯语的大规模多任务语言理解
本文介绍了一个涵盖自然科学、社会科学、工程学和人文学科等多个领域的全面中文基准 CMMLU,并通过评估 18 种面向性能的多语言和中文 LLMs,在不同的主题和设置下评估它们的性能,结果显示,大多数现有 LLM 在提供上下文示例和思维链提示时仍然难以达到 50% 的平均准确性,而随机基准线为 25%,这凸显出 LLMs 有显着的改进空间。
Jun, 2023
在大规模语言模型的时代,本论文引入了 MMLU-Pro,这是一个增强的数据集,旨在扩展主要以知识驱动的 MMLU 基准测试,并且在其中集成了更具挑战性且关注推理的问题,从 4 个选项扩展到 10 个选项,同时消除了 MMLU 中的琐碎和噪声问题。与 MMLU 相比,实验证明 MMLU-Pro 不仅提高了挑战性,导致准确率下降了 16%至 33%,而且对于不同提示的模型评分的敏感性也下降了。此外,我们发现在 MMLU-Pro 上,采用 Chain of Thought (CoT) 推理的模型比直接回答问题的模型表现更好,这与原始 MMLU 上的研究结果形成鲜明对比,表明 MMLU-Pro 包含更复杂的推理问题。我们的评估证实 MMLU-Pro 是一个更有区分性的基准测试,以更好地追踪领域的进展。
Jun, 2024
在小众语言如阿拉伯语中,我们详细研究了开放式大型语言模型在回应多轮指令方面的能力,并利用自定义的阿拉伯文翻译的 MT-Bench 基准套件和 GPT-4 作为评估工具,对英文和阿拉伯文进行了综合评估和比较,结果表明在不同任务类别(逻辑和文学)以英文或阿拉伯文指令时,模型的回答会有所差异。我们发现,使用多语言和多轮次数据集进行微调的基础模型与从头开始使用多语言数据训练的模型具有竞争力。最后,我们假设一组小型、开放式大型语言模型在基准测试中具有与专有模型相当的性能。
Oct, 2023
我们提出了 KMMLU,这是一个新的韩语基准,包括来自 45 个学科的 35,030 个专家级多项选择题,涵盖人文学科到 STEM 学科。与之前从现有英语基准翻译而来的韩语基准不同,KMMLU 收集了来自原始韩语考试的问题,捕捉了韩语的语言和文化方面。我们测试了 26 个公开和专有 LLM 模型,发现有显著的改进空间。最好的公开模型在 KMMLU 上的准确率为 50.54%,远远低于人类平均表现 62.6%。该模型主要用于英文和中文训练,而不是韩语。对于韩语,当前的适用 LLMs,例如 Polyglot-Ko,表现得更差。令人惊讶的是,即使是最强大的专有 LLMs,例如 GPT-4 和 HyperCLOVA X,分别只能达到 59.95%和 53.40%。这表明需要进一步改进韩语 LLMs,而 KMMLU 提供了追踪这一进展的正确工具。我们在 Hugging Face Hub 上公开了我们的数据集,并将这个基准整合到 EleutherAI 的语言模型评估工具中。
Feb, 2024
该研究致力于解决阿拉伯地区数据稀缺的问题,以鼓励开发真实地反映该地区语言和细微差异的阿拉伯语言模型。通过从 Common Crawl WET 文件中提取大量阿拉伯文本数据,经过严格的清洗和去重处理,形成了迄今为止最大的 1010 亿阿拉伯词汇数据集,这将对真实的阿拉伯语言模型的发展产生重要贡献。该研究不仅强调了创造语言和文化准确的阿拉伯语言模型的潜力,还为增强阿拉伯语言模型的真实性奠定了未来研究的先例。
Apr, 2024
这项研究介绍了一个由超过 500GB 的阿拉伯语言清理文本构成的语料库,旨在提高大规模语言模型的跨领域知识和下游泛化能力。此外,该语料库还被用于大型阿拉伯语言模型的训练,在对典型的 NLP 任务进行微调时,与 mBERT 相比表现出 4.5% 至 8.5% 的显着提升,据我所知,这是目前所收集的最大、最清洁、最具多样性的阿拉伯语语料库。
Jan, 2022
M4U 是一个用于评估多学科、多语种、多模态理解和推理能力的新型基准测试数据集,通过 extensive evaluations of 21 leading Large Multimodal Models (LMMs) and Large Language Models (LLMs),发现 GPT-4o 等领先的模型在 M4U 上的平均准确率仅为 47.6%,而且这些模型在跨语言多模态问题上表现出显著的性能降低。
May, 2024
Multi 是一种多模态大型语言模型(MLLMs)的先进基准测试,提供了综合数据集,用于评估 MLLMs 在理解复杂图表、科学问题等方面的表现,并挑战包括公式推导、图像细节分析和跨模态推理在内的多样任务。评估结果表明,MLLMs 在 Multi 上取得了显著的进展,与其他 MLLMs 相比,GPT-4V 的准确率达到了 63.7%,Multi 不仅是一个强大的评估平台,也为专家级 AI 的发展铺平了道路。
Feb, 2024
本文主要研究了基于深度学习与多模态语料库的阿拉伯情感分析的数据集,通过使用最先进的 transformers 和特征提取工具来建立我们的阿拉伯多模态数据集,并使用 state-of-the-art 的 transformer-based model 验证我们的数据集,研究表明阿拉伯多模态情感分析非常有前途。
Jun, 2023