语言模型评估：超越困惑度

ACLMay, 2021

Language Model Evaluation Beyond Perplexity

Clara Meister, Ryan Cotterell

TL;DR我们提出了一个替代方法来量化语言模型学习自然语言的程度：我们询问它们多大程度上与自然语言的统计倾向相匹配。通过分析语言模型生成的文本是否呈现出它们所训练的人类生成文本中存在的统计倾向，提供了一个与显著性测试配对的框架来评估语言模型的拟合程度。我们发现神经语言模型似乎只学会了一部分被考虑的倾向，但与经验性趋势相比，更接近所提出的理论分布（当存在时）。此外，对不同分布的拟合程度高度依赖于模型架构和生成策略。作为具体例子，使用 Nucleus sampling 方式生成的文本比使用标准祖先抽样生成的文本更紧密地遵循自然语言的类型 - 标记关系；LSTMs 生成的文本也非常好地反映了自然语言的长度、停用词和符号分布。

Abstract

We propose an alternate approach to quantifying how well language models learn natural language: we ask how well they match the statistical tendencies of natural language. To answer this question, we analyze whet

language models statistical tendencies human-generated text neural language models generation strategy

发现论文，激发创造

结构化、灵活、鲁棒：针对超出分布推理任务对大型语言模型进行基准测试和改进，以实现更类似于人类的行为

人类语言在思维和学习结构方面发挥重要作用。本文提出了一个挑战测评与深度学习语言模型相比人类表现的基准，并通过提供结构化符号推理模块来拓展深度学习语言模型，以使其更符合人类推理。实验表明，在语言表达能力、泛化能力等方面，人类远远优于 LLMs，这说明混合 AI 模型具有更接近人类推理的潜力。

May, 2022

评估神经语言模型中的分布扭曲

我们发现，LSTM 和 Transformer 语言模型系统地低估了来自目标语言的序列的概率，并且对于不太可能出现的序列更为严重，尽管使用更多的训练数据减轻了这种倾向，但这种低估行为还是存在，并且在目标分布熵较低时加剧了这种情况，并且找到了导致这种概率差距的原因在于语言模型往往会高估不规范序列的概率。

Mar, 2022

预测下一个单词：人类在此任务中表现出的不确定性及语言模型

语言模型相对于人类生成的文本是否准确地表达语言变异性，以及 GPT2、BLOOM 和 ChatGPT 在从统计层面上评估这种能力时的失调问题和预期校准误差的失效问题。

Feb, 2024

语言模型性能度量在心理语言学建模中的应用：人们阅读行为的概率预测

通过对现代神经结构的分析，提出一种新的语言建模表现度量并与人类主观认知语言处理结果的相关性来重新评估 Goodkind 和 Bicknell（2018 年）的观点，证明了一种基于困惑度的语言模型能否对阅读时间进行建模的线性假设不适用于 LSTM 网络，变形器和预训练模型。

Sep, 2020

超越概率：揭示大型语言模型评估中的不一致性

使用大型语言模型（LLMs）进行多项选择题（MCQs）的实证研究表明，概率评估方法在生成预测方面存在内在局限性，与当前评估框架通常基于输出概率而非直接生成回应的计算限制相关，结果强调了 LLMs 评估方法的有效性和未来研究的启示。

Feb, 2024

生成模型的统计图灵测试

通过统计模式识别语言提供了一个框架，量化了针对评估上下文的人类生成内容和机器生成内容之间的差异，描述了当前的方法并演示了如何使用该框架评估生成模型在向人类能力逼近的过程中的进展。

Sep, 2023

所有语言的语言模型难度是否相同？

本文使用翻译文本开发了一种公平的跨语言语言模型比较方法，在 21 种语言中展示了复杂的屈折形态是导致不同语言性能差异的原因。

Jun, 2018

大型语言模型能否替代人类评估？

本文介绍了使用大型语言模型（LLM）代替人类评估来评估人工智能生成的文本的潜力，探索了 LLM 对两个自然语言处理任务的开放性故事生成和对抗性攻击的评估结果，并发现 LLM 评估结果与人类专家的评估结果保持一致。

May, 2023

语言模型行为：综合调查

调查了 250 多个英文语言模型行为的研究，讨论了 Transformer 语言模型在特定任务微调之前的基本功能，以及模型对特定输入和表面特征的敏感性。尽管模型参数规模扩大到数百亿，但仍容易出现非事实性回答、常识错误、记忆文本和社会偏见等弱点。我们综合近期结果，强调了目前关于大型语言模型能够和不能够做到什么的已知情况。

Mar, 2023

形式胜于内容：大型语言模型的评估偏见

在评估自然语言生成的过程中，使用大型语言模型 (LLMs) 作为人类评判的替代方法是一种最新的趋势。然而，本研究发现其评估结果存在偏见。为解决这一问题，提出了多维度独立评估系统 (Multi-Elo Rating System)，在提高 LLM 评估质量方面取得了显著成效，但对众包评估没有明显改善，需要进一步探索和改进。

Jul, 2023