Sep, 2022

为何如此有毒?:在开放领域聊天机器人中测量和触发有毒行为

TL;DR本文展示了公共的聊天机器人模型容易提供有毒反应,并出现了一些非有毒查询可以触发有毒反应。通过实验,展示了一个攻击(ToxicBuddy)的有效性和三种防御机制对其的影响。该研究强调了保障聊天机器人的安全性需要更多的计算机安全和在线安全社区的研究,并展示了 ToxicBuddy 可用作审计工具。