Jun, 2024

KGPA: 大型语言模型的跨领域知识图谱鲁棒性评估

TL;DR本文提出了一种通过知识图谱来评估大型语言模型在对抗攻击场景下的鲁棒性的框架,并通过生成原始提示和毒化的对抗提示来评估模型的鲁棒性。实验证明,ChatGPT 家族的对抗鲁棒性在 GPT-4-turbo > GPT-4o > GPT-3.5-turbo,而大型语言模型的鲁棒性受其所操作的专业领域的影响。