大型语言模型对词级扰动真的具有强健性吗？

Sep, 2023

大型语言模型对词级扰动真的具有强健性吗？

Are Large Language Models Really Robust to Word-Level Perturbations?

Haoyu Wang, Guozheng Ma, Cong Yu, Ning Gui, Linrui Zhang...

TL;DR利用预训练的奖励模型作为诊断工具，我们提出了一种用于评估大规模语言模型的稳健性的新方法，称为奖励模型合理鲁棒性评估（TREvaL）。经过广泛的实证实验，我们发现 TREvaL 在评估大规模语言模型的稳健性方面提供了一种准确的方法，尤其是在面对更具挑战性的开放性问题时。此外，我们的结果表明，大规模语言模型经常表现出对词级扰动的脆弱性，而这种扰动在日常语言使用中很普遍。令人惊讶的是，我们发现随着进一步的微调（SFT 和 RLHF）进行，模型的鲁棒性往往会降低。

Abstract

The swift advancement in the scale and capabilities of large language models (LLMs) positions them as promising tools for a variety of downstream tasks. In addition to the pursuit of better performance and the avoidance of violent feedback on a certain prompt, to ensure the responsibil

large language models evaluation methods robustness reward models word-level perturbations

发现论文，激发创造

估算和提高语言模型的强健性的方法

通过研究大型语言模型的泛化能力问题以及多种提高其分布韧性的方法，本文提出了未来改进大型语言模型鲁棒性的研究方向。

Jun, 2022

评估大型语言模型的对抗性鲁棒性：一项实证研究

对大型语言模型的鲁棒性进行了攻击和评估，并在五项不同的文本分类任务上建立了新的鲁棒性基准，研究结果对可靠部署语言模型并推动可信人工智能系统的发展具有重要意义。

May, 2024

RUPBench：基于干扰的推理鲁棒性评估大型语言模型的基准测试

通过对大型语言模型（LLMs）进行系统的鲁棒性评估，本研究提供了关于 LLMs 对多样化和噪声输入的处理能力方面的进一步改进的见解。

Jun, 2024

大型语言模型的评估存在不一致和偏见

本研究通过使用 SummEval 数据集进行一系列分析，证实了大型语言模型作为评估器在以下方面存在偏见和不一致性：（1）体现对低困惑度文本的偏好；（2）显示具有偏见的评分分布；（3）经历多属性判断时的锚定效应。此外，我们分享了配置大型语言模型评估器以减轻这些限制的方法，通过 RoSE 数据集的实验证明了与最先进的大型语言模型评估器相比的改进。

May, 2024

RoTBench: 评估大型语言模型在工具学习中的鲁棒性的多层级基准测试

介绍了 RoTBench，用于评估工具学习中 LLMs 的鲁棒性的多级基准。通过在五个不同级别的噪声环境下进行实验，揭示了现有模型在工具选择、参数识别和内容填充三个关键阶段中的弹性问题。为了增强 LLMs 在工具学习中的鲁棒性，提出了 RoTTuning 策略。

Jan, 2024

大型语言模型对指令的稳健性评估

指令微调方法能够增强大型语言模型在未知任务上的零样本功能，并对其性能和稳健性进行了评估，发现在处理陌生指令时性能显著下降，而对于关系抽取指令的稳健性较问答指令更差。

Aug, 2023

评估 LLMs 在时间泛化上的表现

大语言模型的发展迫切需要与语言理解和信息处理的提升相适应的评估方法。我们检查了当前的大语言模型，并揭示了它们在时间推理和偏见方面存在的各种时间偏见。我们提出了一个评估框架 Freshbench，用于动态生成最新的现实世界预测性预测的评估基准。

May, 2024

对大型语言模型评估的调查

大语言模型（LLMs）的评估方法是研究这些模型的重要组成部分，这篇综述介绍了评估 LLMs 的方法和维度，并总结了 LLMs 在不同任务中的成功案例、失败案例和未来挑战。

Jul, 2023

利用大型语言模型进行自然语言生成评估：综述

自然语言生成（NLG）评估中引入大型语言模型（LLM）为评估生成内容质量提供了新的途径，本文提供了对利用 LLM 进行 NLG 评估的全面概述，包括组织现有基于 LLM 的评估指标的一致性分类法、批判性评估不同的 LLM 方法以及比较其在评估 NLG 输出中的优势和局限性，讨论未解决的挑战，并推动更公平、更先进的 NLG 评估技术。

Jan, 2024

NLPerturbator：研究代码 LLMs 对自然语言变化的稳健性

本文研究了大型语言模型在现实场景中自然语言描述的变化对于代码生成的影响，并提出了一个自动化框架 NLPerturbator 来对不同类别的描述进行扰动，发现扰动后的描述可以显著降低代码生成的性能。研究强调了提高大型语言模型对于现实场景中描述变化的鲁棒性的重要性，以及构建描述时的细致性。

Jun, 2024