Feb, 2024

LLM 会话安全的攻击、防御和评估:一项调研

TL;DR现在普遍存在大型语言模型在对话应用中的应用。然而,它们被滥用来生成有害回复的风险引起了严重的社会关注,并引发了关于大型语言模型对话安全的最新研究。因此,在这项调查中,我们提供了最近研究的综述,涵盖了大型语言模型对话安全的三个关键方面:攻击、防御和评估。我们的目标是提供一个结构化的概述,以增进对大型语言模型对话安全的理解,并鼓励对这个重要主题进行进一步的研究。为了方便参考,我们根据我们的分类法对本调查中提到的所有研究进行了分类。分类信息可在此 https URL 查看。