May, 2024

毒性检测自由

TL;DR使用 LLMs 自身提取的信息,通过查找替代拒绝响应和首个响应标记的 logits 分布中的有毒提示之间的显著差距,我们提出了一种新的毒性侦测模型 MULI,它不需要训练或额外计算成本,并基于首个响应标记的 logits 构建了一个更强大的检测器,其性能超过了现有技术下的多个指标。