测量大规模多任务中文理解
论文提出了一种新的测试方法,以测量文本模型的多任务准确性,涵盖了包括数学、历史、计算机科学、法律等 57 项任务,为了达到高准确性,模型必须具备丰富的世界知识和问题解决能力。通过综合评估模型的学术和专业理解的广度和深度,我们的测试可以用于分析许多任务中的模型并确定重要的缺陷。
Sep, 2020
这篇论文介绍了 M3KE 评估标准,它是一个用于测试中文大型语言模型在各种学科和教育级别下零样本和少样本的多任务准确性的基准。通过在该基准上对比,研究人员发现 GPT-3.5 在 M3KE 上达到了约 48% 的准确率,比其他中文语言模型表现更为优异。
May, 2023
本文介绍了一个涵盖自然科学、社会科学、工程学和人文学科等多个领域的全面中文基准 CMMLU,并通过评估 18 种面向性能的多语言和中文 LLMs,在不同的主题和设置下评估它们的性能,结果显示,大多数现有 LLM 在提供上下文示例和思维链提示时仍然难以达到 50% 的平均准确性,而随机基准线为 25%,这凸显出 LLMs 有显着的改进空间。
Jun, 2023
本研究通过建模探索基于 Transformer 的多语言语言模型在零样本跨语言转移上的性能预测,并将其视为多任务学习问题,从而建立准确的预测模型。我们的方法还同时进行了特征选择,识别出对多个任务的零样本表现具有影响的共同特征。
May, 2022
我们发布了 TMMLU+,这是一个为传统中文大规模多任务语言理解数据集而设计的全面数据集。TMMLU + 是一个多项选择问答数据集,包括 66 个从初级到专业水平的学科。与其前身 TMMLU 相比,TMMLU + 的规模增加了六倍,学科分布更加平衡。我们在 TMMLU + 中包含了来自闭源模型和 24 个开源的中文大型语言模型的基准结果,这些模型的参数范围从 1.8B 到 72B 不等。我们的研究发现,传统中文模型仍然落后于其简体中文模型。此外,目前的大型语言模型在平均分上仍未超越人类表现。我们公开发布了我们的数据集和相应的基准源代码。
Mar, 2024
评估大型语言模型在语言理解和生成领域中是一项重要任务。我们提出了一套新的基准测试,利用现有的英文数据集,并专门针对评估传统汉语语言模型进行调整,包括问答、摘要、分类和表格理解等任务。评估结果表明,我们的模型在部分评估能力方面达到了与 GPT-3.5 相媲美的性能。为了推进传统汉语语言模型的评估并激发更多研究,我们已经开源了我们的基准测试并开放了模型供试用。
Sep, 2023
使用大型语言模型研究中医药学领域的知识召回和综合推理能力,通过 TCM-QA 数据集评估 LLM 在零样本和少样本设置下的表现,讨论中英提示的差异,结果显示 ChatGPT 在判断题中取得最高精度 0.688,多选题中最低精度为 0.241,中文提示在评估中表现更好,同时评估 ChatGPT 生成的解释质量及其对中医药学知识理解的潜在贡献,为 LLM 在专业领域的适用性提供了有价值的见解,并促进了未来基于这些强大模型推进中医药学研究的方向。
Mar, 2024
通过引入 CMExam 数据集,该研究在医学领域中解决了对大型语言模型进行评估的挑战,同时还通过对 CMExam 的深入分析,详细介绍了 LLMs 在中国医学中的表现和挑战。
Jun, 2023
本研究提出了一种方法,将分布式训练性能纳入模型架构设计中,用于构建 245B 参数的大型单例语言模型 Yuan 1.0,在千万台 GPU 上取得了优异的性能,并在自然语言处理任务中取得了最新成果,同时还建立了当前质量最高的 5TB 中文语料库。此外,本研究还提出了数据处理方法和校准与标签扩展方法,以提高零样本和少样本准确性。Yuan 1.0 表现出强大的自然语言生成能力,其生成的文章很难与人类撰写的文章区分开来。
Oct, 2021