SLING：中文大型语言模型评估

EMNLPOct, 2022

SLING: Sino Linguistic Evaluation of Large Language Models

Yixiao Song, Kalpesh Krishna, Rajesh Bhatt, Mohit Iyyer

TL;DR通过引入基准 SLING，作者测试了 18 个预训练的母语和多语言模型，研究它们对汉语句子的理解效果以及现象级别、社会性别和单 / 复数等方面的影响。作者发现预训练语言模型在 SLING 上的平均准确率远低于人类表现，并存在很强的个别现象偏见。

Abstract

To understand what kinds of linguistic knowledge are encoded by pretrained Chinese language models (LMs), we introduce the benchmark of Sino LINGuistics (SLING), which consists of 38K minimal sentence pairs in mandarin chinese grouped into 9 high-level →

pretrained language models mandarin chinese linguistic phenomena syntactic and semantic phenomenon gender and number bias

发现论文，激发创造

CLiMP: 一个汉语语言模型评估基准

介绍了汉语语言模型所获得的知识的研究方法。使用汉语语言的最小对称集构建数据集，评估 11 种不同的语言模型。结果显示，汉语 BERT 在平均精度达到 81.8％，而 LSTM 和 5-grams 的性能仅略高于随机水平。

Jan, 2021

英语语言最小对比基准: BLiMP

BLiMP 是一套挑战集，用于评估语言模型对英语中主要语法现象的理解水平。研究表明，现有模型能够可靠地识别形态对比，但在限定词和否定极性项分布以及提取岛等微妙的语法现象上仍面临挑战。

Dec, 2019

CMMLU: 用于测量中文海量多任务语言理解的工具

本文介绍了一个涵盖自然科学、社会科学、工程学和人文学科等多个领域的全面中文基准 CMMLU，并通过评估 18 种面向性能的多语言和中文 LLMs，在不同的主题和设置下评估它们的性能，结果显示，大多数现有 LLM 在提供上下文示例和思维链提示时仍然难以达到 50% 的平均准确性，而随机基准线为 25%，这凸显出 LLMs 有显着的改进空间。

Jun, 2023

衡量台灣普通話語言理解能力

该研究针对传统汉语在现有基准测试中的低覆盖率，提出了适用于评估大型语言模型的 TMLU 综合评估工具，通过中学到专业水平的 37 个科目以及对每个科目进行链式思考式的少样本解释，基于 24 个优秀的语言模型的广泛实验证明汉语公开权重模型在复杂推理能力上表现较差，而适用于台湾国语的开放权重模型也相对于简体中文版本存在差距，研究发现存在提升潜力，强调了培养本土化台湾国语大型语言模型的目标，并公开了基准测试和评估脚本以促进未来研究。

Mar, 2024

FewCLUE: 一个中文 Few-shot 学习基准测试

本文针对中文语言，介绍了中国 Few-shot Learning Evaluation 的基准测试（FewCLUE），该测试涵盖了九个任务，并系统地评估了五种最先进的少样本学习方法，和微调、零样本学习的表现比较，结果表明 PET 和 P-tuning 分别在 RoBERTa 和 ERNIE 上取得了最佳的综合性能，并为进一步推动中文 Few-shot Learning 的研究提供了工具包和在线排行榜。

Jul, 2021

大型语言模型在扩展口语理解系统到新语言方面的应用

介绍了一种使用大型语言模型进行机器翻译的流水线，用于扩展语音助手系统的口语理解模型，提高了多语言场景和设备本地场景下的整体准确率。

Apr, 2024

SLING：用于框架语义解析的框架

SLING 是一个用于将自然语言解析成语义框架的框架，使用双向 LSTM 输入编码和输出解码的转换式神经网络解析，可直接输出帧图而无需任何符号表示。

Oct, 2017

跨语言句法评估词预测模型

通过多语言的句法评估套件 CLAMS，调查神经词语预测模型在各种语言中学习语法的能力，结果表明单语 LSTMs 在句子成分及吸引子存在时达到了很高的精度，而在其他方面的一致性准确率较低，多语言模型通常表现不如单语模型。

May, 2020

面向预训练语言模型的可解释性评估基准

本文提出一种基于英文与中文标注数据的新型评估基准，旨在测试预训练语言模型在语法、语义、知识、推理和计算等多个方面的能力，并提供满足充分性和紧凑性的标注标记级别的理由，以及人性化的实例扰动，从而使用照常理性度量：诚实度的角度。实验结果表明，预训练语言模型在知识和计算方面表现非常糟糕；尤其是在理由较短的情况下，其所有维度上的可信度都远远不足够，并且在语法感知数据上评估的预训练语言模型不稳健。

Jul, 2022

SuperCLUE：一个全面的中文大语言模型基准

通过提出综合性的中文基准 SuperCLUE，我们展示了现有评估模型性能的精确性不足以反映用户偏好的情况，并且 GPT-4 可以可靠地自动评估用户对中文开放性问题的偏好。

Jul, 2023