KDDJun, 2023

黑盒生成语言模型中的提示拒绝预测

TL;DR通过黑盒攻击聊天 GPT 并手动标记其响应构建了一个拒绝分类器, 进而基于这个分类器和 Quora Insincere 问题数据集训练了一个提示分类器, 能预测 ChatGPT 是否拒绝一个给定的问题。