面向预训练语言模型的可解释性评估基准

Jul, 2022

面向预训练语言模型的可解释性评估基准

An Interpretability Evaluation Benchmark for Pre-trained Language Models

Yaozong Shen, Lijie Wang, Ying Chen, Xinyan Xiao, Jing Liu...

TL;DR本文提出一种基于英文与中文标注数据的新型评估基准，旨在测试预训练语言模型在语法、语义、知识、推理和计算等多个方面的能力，并提供满足充分性和紧凑性的标注标记级别的理由，以及人性化的实例扰动，从而使用照常理性度量：诚实度的角度。实验结果表明，预训练语言模型在知识和计算方面表现非常糟糕；尤其是在理由较短的情况下，其所有维度上的可信度都远远不足够，并且在语法感知数据上评估的预训练语言模型不稳健。

Abstract

While pre-trained language models (LMs) have brought great improvements in many nlp tasks, there is increasing attention to explore capabilities of LMs and interpret their predictions. However, existing works usu

pre-trained language models interpretability evaluation benchmark masked word prediction nlp tasks

发现论文，激发创造

用于神经 NLP 的精细可解释性评估基准

本文提出了一种新的基准来评估神经网络模型和显著性方法的解释能力，其中包含英文和中文标注数据以及用于评估解释能力的标记。实验结果揭示了三种模型和三种显著性方法的解释能力的优劣，希望这个基准可以促进建立值得信赖的系统的研究。

May, 2022

通过句子编辑探究语言模型可解释性

本文旨在将一个句子编辑数据集复用成为解释性测试场，系统研究预训练语言模型的可解释性及在该场景下的解释效果，发现注意力权重相关性较高，并且比基于梯度的显著性提取方法更有效。

Nov, 2020

超越静态模型和测试集：在任务和语言间评测预训练模型的潜力

本文提出了一种利用语言数据和语言类型学特征来预测跨语种语言模型性能的方法，以此取代传统基于翻译的方法评估系统，该方法表现良好并且能够可靠地估计模型在不同语言上的表现。

May, 2022

ElitePLM：预训练语言模型通用语言能力评估的实证研究

本文介绍了一个对预训练语言模型（PLMs）的普适语言能力进行大规模实证研究的 ElitePLM，并设计了四个评估维度来衡量十种广泛使用的 PLMs，包括记忆、理解、推理和组合。实验结果表明，PLMs 在不同的能力测试中表现出色；下游任务中的微调通常对数据大小和分布敏感；PLMs 在类似任务之间具有出色的可转移性，并且 PLMs 的预测结果在我们的实验中作为开放资源发布，以进行更深入和详细的 PLMs 语言能力分析。这篇论文可以引导未来的工作选择，应用和设计特定任务的 PLMs。

May, 2022

关于语言模型在视觉概念语义相似度评估方面的可解释性研究

这篇研究探讨了高性能预训练语言模型的表现，并提出了一些可解释的评估指标用于理解检索实例的概念质量，并对具有明显查询语义的对抗性干预进行了测试，揭示了不透明指标中的漏洞并显示了学习语言表示中的模式。

Sep, 2022

oLMpics -- 关于语言模型预训练所捕获内容的研究

本研究提出了八项推理任务并设计了评估方案，发现不同的预训练语言模型在推理任务中表现出不同的能力。此外，还发现预训练模型的推理能力具有上下文限制。

Dec, 2019

不要让您的 LLM 成为一个评估基准作弊者

大型语言模型的评估常常会受到不适当使用评估基准和误导性解读评估结果等问题的影响。本研究通过大量实验发现，评估基准泄漏会极大地提高评估结果，从而导致对模型性能的不可靠评估。最后，为大型语言模型的开发者和基准维护者提出了一些建议。

Nov, 2023

衡量台灣普通話語言理解能力

该研究针对传统汉语在现有基准测试中的低覆盖率，提出了适用于评估大型语言模型的 TMLU 综合评估工具，通过中学到专业水平的 37 个科目以及对每个科目进行链式思考式的少样本解释，基于 24 个优秀的语言模型的广泛实验证明汉语公开权重模型在复杂推理能力上表现较差，而适用于台湾国语的开放权重模型也相对于简体中文版本存在差距，研究发现存在提升潜力，强调了培养本土化台湾国语大型语言模型的目标，并公开了基准测试和评估脚本以促进未来研究。

Mar, 2024

PandaLM：LLM 指导调优优化的自动评估基准

通过引入一种名为 PandaLM 的大型语言模型来更公平地评估大型语言模型，该模型不依赖于基于 API 的评估，能够相对简要地比对大量 GPT 系列模型的效果，从而实现了最优超参数选择的自动化、健壮和可靠评估基准的确定。

Jun, 2023

提升 LLMs 的信任度：比较和解释 LLMs 的算法

评估技术在提高大规模语言模型（LLM）的可信度和理解性方面起到了至关重要的作用，通过算法方法和评估指标来评估 LLM 的性能，发现其弱点，并引导其发展以实现更可信赖的应用。

Jun, 2024