强壮健身房：统一自然语言处理评估领域

Jan, 2021

强壮健身房：统一自然语言处理评估领域

Robustness Gym: Unifying the NLP Evaluation Landscape

Karan Goel, Nazneen Rajani, Jesse Vig, Samson Tan, Jason Wu...

TL;DR本文介绍了一个名为 Robustness Gym 的情感模型评估工具，能够对广泛的文本数据和模型进行鲁棒性测试，并允许用户比较和开发各种评估方法，以验证模型的能力和性能。研究表明，在测试现实世界中的文本应用时，深度神经网络常常是脆弱的。与此同时，通过对抗攻击和基于规则的数据转换等多样化的评估方法，我们可以更好地测试这些模型的鲁棒性。使用该工具，我们能够在商业和学术领域中的命名实体链接（NEL）和摘要模型等方面，深入了解最新的研究成果，并检查其性能差异和缺陷。

Abstract

Despite impressive performance on standard benchmarks, deep neural networks are often brittle when deployed in real-world systems. Consequently, recent research has focused on testing the robustness of such model

deep neural networks robustness evaluation toolkit nlp systems state-of-the-art models

发现论文，激发创造

从对抗性武器竞赛到模型为中心的评估：推进自动化统一鲁棒性评估框架

本文提出了一种统一的自动鲁棒性评估框架 RobTest，通过针对模型能力建立鲁棒性评估维度、生成不同维度下的对抗样本，最终实现自动鲁棒性评估。实验结果表明，该框架能有效评估 RoBERTa 模型的鲁棒性。

May, 2023

图形稳健性基准测试：基准测试图形机器学习的对抗稳健性

本文介绍 Graph Robustness Benchmark (GRB) 以及如何利用其提供的标准化攻击和防御过程、统一评估协议、公共排行榜评估和数据处理来发展更为健壮的图机器学习模型。

Nov, 2021

RGRecSys：推荐系统稳健性评估工具包

本文提出了一种综合的鲁棒性评估方法，针对在线技术中广泛存在的推荐系统，研究数据稀疏性和个人信息注入攻击等多种情形下的鲁棒性，并提出了一套评估工具 Robustness Gym for RecSys (RGRecSys)，可以快速、统一地评估推荐系统模型的鲁棒性。

Jan, 2022

精准、可靠、快速的鲁棒性评估

在神经网络的研究中，我们开发了一种新的梯度基础的对抗攻击方法，相较于已有的攻击方法，它更可靠，可以适应广泛的对抗标准，并且在提高效率的同时，不需要进行超参数调整，这将对神经网络的鲁棒性评估做出有益的贡献。

Jul, 2019

自然语言处理健壮性中的胜利回声间传来的疑虑

NLP 中的鲁棒性问题仍未解决，对模型鲁棒性的评估方法也需要重新评估。

Nov, 2023

自然语言处理模型的鲁棒性测量和提升研究综述

本文系统调查了自然语言处理 (NLP) 中如何定义、衡量和改进模型的健壮性，提出了数据驱动、模型驱动和归纳先验为基础的缓解策略，并概述了未来研究的挑战和方向。

Dec, 2021

鲁棒自然语言处理：最近进展、挑战与未来方向

本篇论文总结了近年来自然语言处理 (NLP) 的抗干扰性研究，并就技术、度量标准、嵌入、基准等维度深入探讨了该领域中存在的问题和待解决的方向。

Jan, 2022

王者裸体：关于自然语言处理中健壮性概念的研究

本文认为在自然语言处理领域中使用的对抗性鲁棒性概念是有问题的，并提出了更符合语言语义的 “语义鲁棒性” 概念。在使用基于模板的生成测试平台和多种模型进行实验后，发现语义鲁棒性不但可以提高性能，在处理复杂的语言现象时也能取得一定的保证。

Dec, 2021

大型语言模型中的对抗攻击与防御：旧与新的威胁

过去十年来，人们对神经网络的鲁棒性进行了广泛的研究，但这个问题依然没有得到很好的解决。在这篇论文中，我们提出了改进新方法的鲁棒性评估和减少错误评估的第一组先决条件，同时指出了面向开源模型中恶意内容生成的嵌入空间攻击作为另一个可行的威胁模型。最后，我们通过一个最近提出的防御方法进行演示，展示了在没有针对大型语言模型的最佳实践的情况下，过高估计新方法的鲁棒性的容易性。

Oct, 2023

揭示 NLG 评估器的致命弱点：由大型语言模型驱动的统一对抗框架

通过引入黑盒对抗性评估框架 AdvEval，利用强大的语言模型作为数据生成器和金标评估器，自动优化对抗数据并产生强烈的人工评估与受害评估之间的不一致性，实现了对自然语言生成系统进行鲁棒性评估的研究。在 12 个受害评估器和 11 个自然语言生成数据集上的实验证明了 AdvEval 的有效性。

May, 2024