Jul, 2023

理解开放域聊天机器人中的多轮有害行为

TL;DR设计了一种名为 oxicbot 的新攻击方式,通过对话序列来触发多轮对话中聊天机器人生成有毒回复,使得聊天机器人模型可以被触发生成有毒回复,进而绕过两种防御方法,需要进一步研究解决动态交互环境下聊天机器人的毒性问题。