EMNLPDec, 2022

通过可控反向生成构建高感应上下文以确保对话安全

TL;DR本文提出了一种名为反向生成的方法来构建对抗性环境,以检测大型预训练语言模型生成的有毒内容,并发现环境毒性和环境类别是引发安全问题的两个重要因素。该方法能够控制对抗性环境的类别、毒性和诱导性等参数。作者构建了一个新的数据集 BAD+,其中包含 12 个类别的超过 120K 个多样化和高诱导性的上下文,同时测试了三个流行的预训练模型,并发现 BAD+ 能够极大地暴露它们的安全问题,进一步说明 BAD+ 能够极大地增强生成的安全性和揭示关键的安全因素。