测量大规模多任务语言理解

ICLRSep, 2020

Measuring Massive Multitask Language Understanding

Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika...

TL;DR论文提出了一种新的测试方法，以测量文本模型的多任务准确性，涵盖了包括数学、历史、计算机科学、法律等 57 项任务，为了达到高准确性，模型必须具备丰富的世界知识和问题解决能力。通过综合评估模型的学术和专业理解的广度和深度，我们的测试可以用于分析许多任务中的模型并确定重要的缺陷。

Abstract

We propose a new test to measure a text model's multitask accuracy. The test covers 57 tasks including elementary mathematics, US history, computer science, law, and more. To attain high accuracy on this test, mo

multitask accuracy world knowledge problem solving text model gpt-3

发现论文，激发创造

测量大规模多任务中文理解

本文提出了一个测试大规模中文语言模型多任务准确性的方法，测试涵盖医学、法律、心理学和教育等四个主要领域，在医学和教育领域共包含 15 个子任务和 8 个子任务。测试表明，在零样本情况下，表现最好的模型平均优于表现最差的模型近 22 个百分点。此外，本测试可以跨多个领域全面评估知识的广度和深度，更准确地识别模型的缺陷。

Apr, 2023

通过多语言的一致性评估任务理解：ChatGPT 案例研究

本文提出了一种新的方法，通过评估 LLM 在不同意义的一致性来评估其理解能力，并使用多语言自我一致性作为检验模型理解力的标尺。作者以 ChatGPT 为例，通过在三种不同语言中评估两个不同任务的多语言一致性，发现其多语言一致性仍然不足，而其任务和世界理解力很大程度上取决于所使用的语言。该方法可以不需要任何其他语言的静态评估集，轻松、廉价地推广到不同的语言和任务中，成为未来基准评估的重要组成部分。

May, 2023

计算机科学学位项目中大型语言模型的表现

这篇论文在应用科学大专的计算机科学学士学位课程中研究了不同大型语言模型的表现和效果，发现当前的大型语言模型在不同计算机科学领域表现出色，但由于数学计算方面的限制，即使是 GPT-4.0 也无法通过该课程。

Jul, 2023

TruthfulQA：衡量模型模仿人类错误的程度

提出了一种 benchmark 以衡量语言模型在生成答案时是否真实，测试了 GPT-3、GPT-Neo/J、GPT-2 和基于 T5 的模型，发现最好的模型能够在 58％的问题上保持真实，建议使用不同于模仿网页文本的训练目标来进行微调以提高真实性。

Sep, 2021

语言模型是少样本学习器

在大规模预训练语言模型上进行 fine-tuning 可以显著提高模型在 NLP 任务中的任务值线表现，同时还证明了 scaling up 语言模型可以大大改善任务独立的 few-shot learning 表现，并探讨了 GPT-3 模型优势和局限性。

May, 2020

印尼的大型语言模型只能通过小学考试：基于 IndoMMLU 的综合测试

通过收集印尼的基础学校到大学入学考试的一系列考题，我们评估了大型语言模型是否能够通过这些考试，结果表明 GPT-3.5 仅能通过印尼的小学水平，并且对印尼的本地语言和文化了解有限，而诸如 BLOOMZ 和 Falcon 等较小的模型则无法通过这些考试。

Oct, 2023

波斯语大型语言模型基准测试：关注 ChatGPT 的初步研究

本文探讨了大型语言模型（LLMs）在波斯语中的有效性。研究发现，虽然 ChatGPT 和其他 LLMs 在英语中表现出色，但它们在资源稀缺的语言上的效率仍然是一个悬而未决的问题。研究通过对各种波斯语任务进行全面的基准测试研究，重点评估了 GPT-3.5-turbo，同时还包括 GPT-4 和 OpenChat-3.5，以提供更全面的评估。研究结果显示，虽然 LLMs，特别是 GPT-4，在需要推理能力和对一般知识的广泛理解的任务中表现出色，但它们通常落后于针对特定任务进行细化调整的较小的预训练模型。此外，研究还观察到将测试集翻译成英语后输入 GPT-3.5 会改善其性能。这些结果突显了提升波斯语中 LLM 性能的重要潜力，这尤其值得注意，因为波斯语具有独特的字母和写作风格。

Apr, 2024

语言模型：少样本多语言学习者

通过对 GPT 和 T5 模型进行跨语言分类，本论文发现预训练模型在少量英语样本的情况下可以预测非英语测试样本，且在跨语言预测方面表现显著优于随机预测，并与现有的最先进的跨语言模型具有竞争力。

Sep, 2021

基于维基百科风格的调查问卷生成的大型语言模型：在 NLP 概念上的评估

通过对计算机科学 - NLP 领域的 20 个选定主题进行研究和评估，本文证明了 GPT-4 相对于 GPT-3.5 在产生简明调查文章方面的成功，并揭示了 LLM 在特定领域应用中存在的问题和短板。

Aug, 2023

GPT-Neo 用于常识推理 —— 理论和实践视角

本文评估了 GPT-neo 1.3 亿模型在常识推理任务上的表现，发现模型在某些任务上具有竞争力，但当数据集大小显著较小时表现会很差。研究者还使用可视化和推理测试来证实结果，并通过多种方法进行彻底的健壮性测试。

Nov, 2022