CLiMP: 一个汉语语言模型评估基准

Jan, 2021

CLiMP: A Benchmark for Chinese Language Model Evaluation

Beilei Xiang, Changbing Yang, Yu Li, Alex Warstadt, Katharina Kann

TL;DR介绍了汉语语言模型所获得的知识的研究方法。使用汉语语言的最小对称集构建数据集，评估 11 种不同的语言模型。结果显示，汉语 BERT 在平均精度达到 81.8％，而 LSTM 和 5-grams 的性能仅略高于随机水平。

Abstract

Linguistically informed analyses of language models (LMs) contribute to the understanding and improvement of these models. Here, we introduce the corpus of Chinese linguistic minimal pairs (CLiMP), which can be used to investigate what knowledge Chinese LMs acquire. CLiMP consists of s

chinese language models linguistics minimal pairs syntactic contrasts mandarin

发现论文，激发创造

英语语言最小对比基准: BLiMP

BLiMP 是一套挑战集，用于评估语言模型对英语中主要语法现象的理解水平。研究表明，现有模型能够可靠地识别形态对比，但在限定词和否定极性项分布以及提取岛等微妙的语法现象上仍面临挑战。

Dec, 2019

SLING：中文大型语言模型评估

通过引入基准 SLING，作者测试了 18 个预训练的母语和多语言模型，研究它们对汉语句子的理解效果以及现象级别、社会性别和单 / 复数等方面的影响。作者发现预训练语言模型在 SLING 上的平均准确率远低于人类表现，并存在很强的个别现象偏见。

Oct, 2022

俄文语言最小对的评估基准：RuBLiMP

这篇论文介绍了俄语语言最小对对比基准（RuBLiMP），它包含 45k 对的句子，这些句子在语法、形态、句法或语义现象上存在差异，与现有的语言最小对对比基准相比，RuBLiMP 利用了来自开放文本语料库的自动注释句子并仔细筛选测试数据。作者描述了数据收集协议，并展示了对 25 种语言模型在不同场景下的评估结果。研究发现，对于需要理解结构关系、否定、及时态的现象，俄语广泛使用的语言模型在形态和一致性方面较为敏感，但在这些现象上与人类相比存在一定差距。RuBLiMP、代码和其他材料可公开获取。

Jun, 2024

SuperCLUE：一个全面的中文大语言模型基准

通过提出综合性的中文基准 SuperCLUE，我们展示了现有评估模型性能的精确性不足以反映用户偏好的情况，并且 GPT-4 可以可靠地自动评估用户对中文开放性问题的偏好。

Jul, 2023

FewCLUE: 一个中文 Few-shot 学习基准测试

本文针对中文语言，介绍了中国 Few-shot Learning Evaluation 的基准测试（FewCLUE），该测试涵盖了九个任务，并系统地评估了五种最先进的少样本学习方法，和微调、零样本学习的表现比较，结果表明 PET 和 P-tuning 分别在 RoBERTa 和 ERNIE 上取得了最佳的综合性能，并为进一步推动中文 Few-shot Learning 的研究提供了工具包和在线排行榜。

Jul, 2021

跨语言句法评估词预测模型

通过多语言的句法评估套件 CLAMS，调查神经词语预测模型在各种语言中学习语法的能力，结果表明单语 LSTMs 在句子成分及吸引子存在时达到了很高的精度，而在其他方面的一致性准确率较低，多语言模型通常表现不如单语模型。

May, 2020

中文 CLIP：中文对比视觉 - 语言预训练

该研究使用中文数据构建巨大的图像文本配对数据集，并使用其预训练中文 CLIP 模型，该模型能够在零 - shot 学习和微调设置下，在 MUGE、Flickr30K-CN 和 COCO-CN 上实现最新技术水平，并能够在 ELEVATER 基准测试中实现竞争性能。

Nov, 2022

多语言场景的渐进式视觉语言知识蒸馏和对齐框架

我们提出了一个概念简单但有效的多语言 CLIP 压缩框架，并训练了一个轻量级的多语言视觉 - 语言模型 DC-CLIP，用于中文和英文环境。在零样本图像分类方面的综合实验表明，相比于现有的类似参数规模的模型，DC-CLIP 在英文环境中取得了优越的性能，在中文环境中表现出竞争性能，即使使用较少的训练数据。我们设计的训练机制证明了其有效性。

Apr, 2024

CMMLU: 用于测量中文海量多任务语言理解的工具

本文介绍了一个涵盖自然科学、社会科学、工程学和人文学科等多个领域的全面中文基准 CMMLU，并通过评估 18 种面向性能的多语言和中文 LLMs，在不同的主题和设置下评估它们的性能，结果显示，大多数现有 LLM 在提供上下文示例和思维链提示时仍然难以达到 50% 的平均准确性，而随机基准线为 25%，这凸显出 LLMs 有显着的改进空间。

Jun, 2023

CLUE：一个中文语言理解评测基准

该论文介绍了第一个大规模的中文语言理解评估基准，名为 CLUE，以帮助解决英语特定的自然语言理解模型难以用于其他语言的问题，并使用 9 个最先进的中文预训练模型来报告结果，并引入了一系列辅助数据集和工具以促进中文自然语言理解技术的进一步发展。

Apr, 2020