ACLOct, 2021

关于对话模型的安全性:分类法,数据集和基准

TL;DR在人 - 机对话设定中,我们为对话安全性提出了一种专门捕捉不安全行为的分类法,重点在于对先前的探讨不足的上下文敏感性不安全性的关注,并编制了一个包含丰富上下文的不安全示例的数据集 DiaSafety,实验证明现有的安全保护工具严重失败。为此,我们训练了一个对话安全性分类器来提供上下文敏感对话不安全性检测的强大基线,在流行的对话模型上执行安全评估,并展示现有的对话系统仍然存在令人关注的上下文敏感安全问题。