评估大型语言模型的对抗性鲁棒性：一项实证研究

May, 2024

Assessing Adversarial Robustness of Large Language Models: An Empirical Study

Zeyu Yang, Zhao Meng, Xiaochen Zheng, Roger Wattenhofer

TL;DR对大型语言模型的鲁棒性进行了攻击和评估，并在五项不同的文本分类任务上建立了新的鲁棒性基准，研究结果对可靠部署语言模型并推动可信人工智能系统的发展具有重要意义。

Abstract

large language models (LLMs) have revolutionized natural language processing, but their robustness against adversarial attacks remains a c