SLING:中文大型语言模型评估
介绍了汉语语言模型所获得的知识的研究方法。使用汉语语言的最小对称集构建数据集,评估 11 种不同的语言模型。结果显示,汉语 BERT 在平均精度达到 81.8%,而 LSTM 和 5-grams 的性能仅略高于随机水平。
Jan, 2021
BLiMP 是一套挑战集,用于评估语言模型对英语中主要语法现象的理解水平。研究表明,现有模型能够可靠地识别形态对比,但在限定词和否定极性项分布以及提取岛等微妙的语法现象上仍面临挑战。
Dec, 2019
本文介绍了一个涵盖自然科学、社会科学、工程学和人文学科等多个领域的全面中文基准 CMMLU,并通过评估 18 种面向性能的多语言和中文 LLMs,在不同的主题和设置下评估它们的性能,结果显示,大多数现有 LLM 在提供上下文示例和思维链提示时仍然难以达到 50% 的平均准确性,而随机基准线为 25%,这凸显出 LLMs 有显着的改进空间。
Jun, 2023
该研究针对传统汉语在现有基准测试中的低覆盖率,提出了适用于评估大型语言模型的 TMLU 综合评估工具,通过中学到专业水平的 37 个科目以及对每个科目进行链式思考式的少样本解释,基于 24 个优秀的语言模型的广泛实验证明汉语公开权重模型在复杂推理能力上表现较差,而适用于台湾国语的开放权重模型也相对于简体中文版本存在差距,研究发现存在提升潜力,强调了培养本土化台湾国语大型语言模型的目标,并公开了基准测试和评估脚本以促进未来研究。
Mar, 2024
本文针对中文语言,介绍了中国 Few-shot Learning Evaluation 的基准测试(FewCLUE),该测试涵盖了九个任务,并系统地评估了五种最先进的少样本学习方法,和微调、零样本学习的表现比较,结果表明 PET 和 P-tuning 分别在 RoBERTa 和 ERNIE 上取得了最佳的综合性能,并为进一步推动中文 Few-shot Learning 的研究提供了工具包和在线排行榜。
Jul, 2021
SLING 是一个用于将自然语言解析成语义框架的框架,使用双向 LSTM 输入编码和输出解码的转换式神经网络解析,可直接输出帧图而无需任何符号表示。
Oct, 2017
通过多语言的句法评估套件 CLAMS,调查神经词语预测模型在各种语言中学习语法的能力,结果表明单语 LSTMs 在句子成分及吸引子存在时达到了很高的精度,而在其他方面的一致性准确率较低,多语言模型通常表现不如单语模型。
May, 2020
本文提出一种基于英文与中文标注数据的新型评估基准,旨在测试预训练语言模型在语法、语义、知识、推理和计算等多个方面的能力,并提供满足充分性和紧凑性的标注标记级别的理由,以及人性化的实例扰动,从而使用照常理性度量:诚实度的角度。实验结果表明,预训练语言模型在知识和计算方面表现非常糟糕;尤其是在理由较短的情况下,其所有维度上的可信度都远远不足够,并且在语法感知数据上评估的预训练语言模型不稳健。
Jul, 2022
通过提出综合性的中文基准 SuperCLUE,我们展示了现有评估模型性能的精确性不足以反映用户偏好的情况,并且 GPT-4 可以可靠地自动评估用户对中文开放性问题的偏好。
Jul, 2023