新词测试：评估大型语言模型的鲁棒性

Feb, 2024

新词测试：评估大型语言模型的鲁棒性

NEO-BENCH: Evaluating Robustness of Large Language Models with Neologisms

Jonathan Zheng, Alan Ritter, Wei Xu

TL;DR使用大型语言模型 (LLMs) 对英语新词的研究表明，时间上以及模型训练和推理过程中不断出现的新词引起了数据漂移，对机器翻译等任务的性能造成了巨大影响。基于此，我们构建了一个基准测试来评估 LLMs 对新词的泛化能力和模型困惑度，并发现模型在后面的知识截断日期下获得更低的困惑度并在下游任务中表现更好。

Abstract

The performance of large language models (LLMs) degrades from the temporal drift between data used for model training and newer text seen during inference. One understudied avenue of language change causing data drift is the emergence of →

large language models temporal drift neologisms model performance benchmark

发现论文，激发创造

神经网络中的新兴语言结构是脆弱的

本文提出了一种基于探测任务的神经网络模型的韧性度量方法，在通过语言模型中提取出的语言结构上评估了四种大型语言模型的一致性和鲁棒性，并发现神经网络的新兴句法表示具有脆弱性。

Oct, 2022

估算和提高语言模型的强健性的方法

通过研究大型语言模型的泛化能力问题以及多种提高其分布韧性的方法，本文提出了未来改进大型语言模型鲁棒性的研究方向。

Jun, 2022

评估 LLMs 在时间泛化上的表现

大语言模型的发展迫切需要与语言理解和信息处理的提升相适应的评估方法。我们检查了当前的大语言模型，并揭示了它们在时间推理和偏见方面存在的各种时间偏见。我们提出了一个评估框架 Freshbench，用于动态生成最新的现实世界预测性预测的评估基准。

May, 2024

生成人工智能时代下的大型语言模型评估标准的不足

通过以人、过程和技术为视角，功能性和安全性为支柱，使用我们的统一评估框架，对 23 个最先进的 LLM 基准进行了研究，发现了显著的限制，并强调了在人工智能进步的背景下，标准化方法、监管确定性和伦理指南的迫切需求，以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。

Feb, 2024

多视角时间概念漂移下掩码语言模型的动态基准测试

该研究在 Wikidata 数据集上，评估了 11 个预训练的蒙面语言模型对时间概念漂移的影响，以确保其能够适应不断更新的现实世界的事实更新，并提供了一个综合框架来构建不同时间粒度的事实数据集，并通过多个评估角度来评估模型是否过时。

Feb, 2023

大语言模型的新概念理解

提出了一个新的基准 SLANG，评估语言模型对于理解互联网上新兴语言趋势的能力，并提出了基于因果推断的方法 FOCUS，它通过研究语言变化的真实例子来增强语言模型对于新短语和用法模式的理解。实证分析表明，基于因果推断的方法在解释互联网俚语和表情包时，准确性和相关性方面优于传统模型。

Jan, 2024

E-Bench: 大型语言模型易用性评估

通过系统分析大型语言模型（LLMs）抵抗提示扰动的稳定性，本研究构建 E-Bench 模拟真实人类使用情况，并讨论了同义扰动和排版扰动的组合以及性能下降的主要原因，实验证明即便随着模型规模的增加，易用性显著提升，但仍需努力建立足够用户友好的模型。

Jun, 2024

语言多样性的好奇衰退：基于合成文本训练语言模型

研究通过以前辈生成的合成数据对大型语言模型进行训练的后果，重点关注这种训练方法对语言多样性的影响，特别是在逐步迭代的过程中。通过开展递归微调实验，应用一系列针对词汇、句法和语义多样性的新型度量标准，我们的研究发现模型输出的多样性在连续迭代中显著降低。这一趋势强调了在训练大型语言模型时使用前辈生成文本的潜在风险，特别是涉及保留语言丰富性方面。我们的研究突出了需要仔细考虑这种训练方法对大型语言模型的语言能力所产生的长期影响。

Nov, 2023

衡量统计语言模型进展的十亿词基准

该论文提出了一种新的基准语料库，用于衡量统计语言建模的进展，探讨了多种语言模型的性能表现，通过使用长短时记忆模型，降低模型复杂度来改善模型性能，实现了对语言模型的快速评估，并提出了相应的语言模型技巧，解决了语言建模中存在的困难。

Dec, 2013

大型语言模型在预测神经科学结果方面超越人类专家

通过大规模语言模型（LLMs）来预测神经科学实验结果，发现 LLMs 在预测实验结果方面超过了专家，并且经过优化的神经科学文献模型 BrainGPT 表现更好，这预示着人类与 LLMs 共同合作进行科学发现的未来。

Mar, 2024