Holmes：语言模型的语言能力基准测试

Apr, 2024

Holmes：语言模型的语言能力基准测试

Holmes: Benchmark the Linguistic Competence of Language Models

Andreas Waldis, Yotam Perlitz, Leshem Choshen, Yufang Hou, Iryna Gurevych

TL;DR提出了 Holmes 语言模型能力评估基准，通过使用基于分类器的探测来评估语言模型的语言能力。分析 50 多个语言模型发现，其语言能力与模型大小相关，同时模型架构和指令调整也显著影响性能，特别是在形态和语法方面。最后，提出了 FlashHolmes，它是 Holmes 的简化版本，旨在降低高计算负载同时保持高排名准确性。

Abstract

We introduce Holmes, a benchmark to assess the linguistic competence of language models (LMs) - their ability to grasp linguistic phenomen

linguistic competence language models benchmark internal representations probing

发现论文，激发创造

结构化、灵活、鲁棒：针对超出分布推理任务对大型语言模型进行基准测试和改进，以实现更类似于人类的行为

人类语言在思维和学习结构方面发挥重要作用。本文提出了一个挑战测评与深度学习语言模型相比人类表现的基准，并通过提供结构化符号推理模块来拓展深度学习语言模型，以使其更符合人类推理。实验表明，在语言表达能力、泛化能力等方面，人类远远优于 LLMs，这说明混合 AI 模型具有更接近人类推理的潜力。

May, 2022

PhonologyBench 评估大型语言模型的音系技能

LLMs 在语音学任务上的表现是一个重要但常被忽视的组成部分，我们通过三个诊断任务的基准测试，发现 LLMs 在英语语音学任务中与人类相比在押韵词生成和音节计数方面存在显著差距。因此，研究 LLMs 在语音学任务上的表现对于实际应用具有重要意义。此外，我们鼓励研究人员选择在与下游应用密切相关的语音学任务上表现优异的 LLMs 模型。

Apr, 2024

语言模型整体评估

我们提出了综合评估语言模型 (HELM) 来提高人们对这一基础技术的透明度，采用多指标方法测量 16 个核心场景的 7 个指标，此外还进行了 7 个有针对性的评估，总结了 25 个高层次结论，并公开了所有模型和完成的原始数据。

Nov, 2022

使用语言模型作为审核器的基础模型基准测试

本文提出了一种新的基准测试框架，Language-Model-as-an-Examiner，其中 LM 作为一个知识丰富的考官，提出问题，并以无参考的方式评估答复，以便更全面和公平地评估模型。

Jun, 2023

基于能力的语言模型分析

本文提出了 CALM 实验框架并使用梯度基于对抗攻击的方法对语言模型的内部表示进行破坏性实验，以评估其在执行特定任务时使用每个表示的能力。在对 BERT 等 LM 执行对应关系提示任务的案例研究中，发现 LM 在执行每个任务时所利用的表示高度交织在一起，但可以在它们最常被利用的任务方面进行有意义的解释。

Mar, 2023

PsyEval：一种用于精神健康领域的综合大型语言模型评估基准

目前缺乏对大型语言模型（LLMs）在心理健康领域能力评估的全面基准。因此，我们填补该空白，并引入了首个适用于心理健康领域特点的全面基准，包括六个子任务、三个维度，系统评估 LLMs 在心理健康领域的能力。我们为每个子任务设计了相应的简明提示，并全面评估了八个先进的 LLMs 使用我们的基准。实验结果不仅展示了当前 LLMs 在心理健康方面的改进空间，还揭示了未来模型优化的潜在方向。

Nov, 2023

KoLA：大型语言模型世界知识的精细基准测试

我们构建了一种基于知识导向的大型语言模型评估基准，并通过使用维基百科和不断收集出现的语料库来确保数据的公正比较，评估 21 个开源和商业大型语言模型的能力和知识相关度。

Jun, 2023

大型语言模型在语言学习中的口语智能

评估大语言模型在教育中的功效，特别是在口语学习领域，引入新的多选题数据集评估模型在理解和应用口语知识方面的表现，研究不同提示技术对模型性能的影响，发现模型在音韵学、语音学和第二语言习得方面具有良好的概念理解，但在解决现实世界问题的推理方面存在限制，并初步探讨了对话交流的发现。

Aug, 2023

文档连贯性建模评估

在理解预训练语言模型对话建模能力方面，我们提出了一种句子入侵检测任务，并在英语方面检查了一系列预训练 LM 的性能。我们通过构建包含英语维基百科和 CNN 新闻文章的 170,000 + 文档的新型入侵句子检测数据集 INSteD，显示预训练 LM 在域内评估中表现出色，但在跨域设置中经验了大幅下降，表明其对跨域推广的能力有限。进一步的，在一个新的语言探测数据集上的结果表明，在跨域设置中有很大的改进空间。

Mar, 2021

分析大型语言模型在课堂讨论评估中的应用

借助大型语言模型（LLMs）等新的自然语言处理技术，自动评估课堂讨论质量变得越来越可行。本文研究了两种 LLMs 的评估性能如何与任务制定、上下文长度和少样本示例等三个可能影响性能的因素相互作用。我们还探讨了两种 LLMs 的计算效率和预测一致性。结果表明，前述三个因素确实影响了被测试 LLMs 的性能，并且预测一致性与性能之间存在关系。我们建议采用以 LLMs 为基础的评估方法，在预测性能、计算效率和一致性方面取得良好平衡。

Jun, 2024