ElitePLM：预训练语言模型通用语言能力评估的实证研究

ACLMay, 2022

ElitePLM：预训练语言模型通用语言能力评估的实证研究

ElitePLM: An Empirical Study on General Language Ability Evaluation of Pretrained Language Models

Junyi Li, Tianyi Tang, Zheng Gong, Lixin Yang, Zhuohao Yu...

TL;DR本文介绍了一个对预训练语言模型（PLMs）的普适语言能力进行大规模实证研究的 ElitePLM，并设计了四个评估维度来衡量十种广泛使用的 PLMs，包括记忆、理解、推理和组合。实验结果表明，PLMs 在不同的能力测试中表现出色；下游任务中的微调通常对数据大小和分布敏感；PLMs 在类似任务之间具有出色的可转移性，并且 PLMs 的预测结果在我们的实验中作为开放资源发布，以进行更深入和详细的 PLMs 语言能力分析。这篇论文可以引导未来的工作选择，应用和设计特定任务的 PLMs。

Abstract

Nowadays, pretrained language models (PLMs) have dominated the majority of NLP tasks. While, little research has been conducted on systematically evaluating the language abilities of PLMs. In this paper, we present a large-scale empirical study on →

pretrained language models general language ability evaluation memory comprehension reasoning

发现论文，激发创造

知识增强的预训练语言模型：综述

本文论述了预训练语言模型（PLM）的重要性以及知识增强型预训练语言模型（KE-PLMs）的研究现状，探讨了 KE-PLMs 在各种 NLU 和 NLG 应用中的超越性能以及 KE-PLMs 面临的挑战和未来研究方向。

Oct, 2021

基于条件生成的大型语言模型性能基准测试

本文提出如何将 PLMs 应用到现有应用程序特定的生成基准上，对输入和输出语言等不同维度的 PLMs 在自然语言生成任务方面的优点和局限性进行了深入的实证研究，并分享了在开发新 PLMs 时考虑到的基准生成能力的最佳实践。

Jun, 2023

知识增强预训练语言模型综述

本文利用分类法阐述了如何将外部知识融入预训练语言模型（PLMs）中解决其因缺乏外部知识而导致的推理能力不足问题，以及 KE-PLMs 在 NLU 和 NLG 任务中的应用和未来发展方向。

Nov, 2022

核心竞争力视角下的大型语言模型评估调查

从预训练语言模型（PLM）到大型语言模型（LLM），自然语言处理（NLP）领域已经取得了明显的性能提升和广泛的实际应用。为了解决评估 LLM 的困难，这篇论文调查了关于 LLM 评估的多篇论文，并总结了 LLM 的四个核心能力，包括推理、知识、可靠性和安全性。在这个能力结构下，相似的任务被合并以反映相应的能力，而新的任务也可以轻松地添加到系统中。最后，给出了关于 LLM 评估未来方向的建议。

Aug, 2023

大型语言模型调查

本文介绍了最近关于预训练语言模型（PLMs）的新进展，重点讨论了大型语言模型的预训练、适应和调整、利用和容量评估四个方面，并讨论了未来研究的问题和方向。

Mar, 2023

预训练语言模型中认知智能的发展

经验表明，大型预训练语言模型的新认知能力使其成为认知科学理论的候选模型。本研究通过心理测量学测试选择四组任务，对十个热门预训练语言模型进行评估，发现无论模型大小，PLMs 的训练过程在人类认知发展的某个窗口期内表现出最高程度的一致性。在该窗口期之前，训练为模型提供了基础结构，使其能够迅速从经验中学习；而在该窗口期之后，训练似乎更多地用于工程目标而非科学目标。

Jul, 2024

预训练语言模型在简单知识图谱问答中的实证研究

本文针对知识图谱问答中不同预训练语言模型的性能对比，基于两个基本框架和三个基准数据集进行了实验和分析，结果表明知识蒸馏和知识增强技术对于知识图谱问答有很大的帮助；同时，该文还测试了 ChatGPT 在零样本知识图谱问答方面的表现，最终发布了相关代码与基准数据集供后续研究使用。

Mar, 2023

文本转语音的预训练语言模型的比较分析

本研究旨在比较分析不同的预训练语言模型在文本转语音任务中的影响，包括韵律预测和停顿预测，并发现模型大小与质量之间存在对数关系，以及中性和表达韵律之间的显著性能差异。此外，还发现任务对较小模型不太敏感，并且我们的实证结果与这些语言模型的 GLUE 分数之间存在强相关性。据我们所知，这是第一项研究探究不同预训练语言模型对文本转语音影响的研究。

Sep, 2023

LeXFiles 和 LegalLAMA: 促进英语跨国法律语言模型的发展

该研究通过分析基于法律的预训练语言模型的性能，可以得出结论，领域特定的预训练语言模型的开发包括模型的大小和先前的法律知识两个方面。

May, 2023

面向预训练语言模型的可解释性评估基准

本文提出一种基于英文与中文标注数据的新型评估基准，旨在测试预训练语言模型在语法、语义、知识、推理和计算等多个方面的能力，并提供满足充分性和紧凑性的标注标记级别的理由，以及人性化的实例扰动，从而使用照常理性度量：诚实度的角度。实验结果表明，预训练语言模型在知识和计算方面表现非常糟糕；尤其是在理由较短的情况下，其所有维度上的可信度都远远不足够，并且在语法感知数据上评估的预训练语言模型不稳健。

Jul, 2022