黑盒生成语言模型中的提示拒绝预测

KDDJun, 2023

黑盒生成语言模型中的提示拒绝预测

I'm Afraid I Can't Do That: Predicting Prompt Refusal in Black-Box Generative Language Models

Max Reuter, William Schulze

TL;DR通过黑盒攻击聊天 GPT 并手动标记其响应构建了一个拒绝分类器，进而基于这个分类器和 Quora Insincere 问题数据集训练了一个提示分类器，能预测 ChatGPT 是否拒绝一个给定的问题。

Abstract

Since the release of OpenAI's ChatGPT, generative language models have attracted extensive public attention. The increased usage has highlighted generative models' broad utility, but also revealed several forms of embedded →

generative language models bias fine-tuning refusal classifier prompt classifier

发现论文，激发创造

语言模型中的拒绝是由单方向引发的

通过分析大型对话式语言模型中拒绝行为的机制，提出了一种解禁方法，并展示了如何通过了解模型内部来控制模型行为。

Jun, 2024

ChatGPT 中的性别偏见有多普遍？-- 探索德语和英语 ChatGPT 的回答

分析 ChatGPT 对有性别偏见和提示分析的系统回应，检查其可用性和限制。

Sep, 2023

ChatGPT 还是人？检测与说明。解释机器学习模型检测短 ChatGPT 生成文本的决策

本文研究了机器学习模型在准确区分 ChatGPT 生成文本与人类生成文本时是否能够有效训练，使用可解释的人工智能框架来对模型进行了解释，研究发现采用 ChatGPT 重新短语生成能够使模型识别 ChatGPT 生成文本与人类生成文本之间的差异更具挑战性。

Jan, 2023

如何请求决定一切：针对越狱攻击的简单黑盒方法

通过使用以 ChatGPT 为目标的简单黑盒方法，本研究有效地生成越过伦理规定的提示，突破了现有方法的复杂性和计算成本的限制，该方法通过 LLM 自身将有害的提示迭代地重写为无害表达式，该研究结果表明，创建有效的越狱提示比以前认为的更简单，并且黑盒越狱攻击构成了更严重的安全威胁。

Jan, 2024

可靠性检查：对 GPT-3 在敏感话题和提示措辞方面响应的分析

研究分析了大型语言模型对敏感主题的反应和提示措辞对模型反应的影响，结果显示 GPT-3 在肯定的阴谋论和刻板印象方面反应正确，但在常见的错误观念和争议方面则会出现错误，暴露出其不可靠性。

Jun, 2023

基于查询的对抗性提示生成

通过使用具有 API 访问的远程语言模型构建具有更高概率发出有害字符串的对抗性示例，我们改进了之前的工作，并验证了我们的攻击在 GPT-3.5 和 OpenAI 的安全分类器上的有效性。

Feb, 2024

关于 ChatGPT 在情感计算中的提示敏感性

通过敏感度分析和评估不同提示或生成参数对 foundation models 的性能敏感程度，探索 affective computing 领域中的 prompting 技术，以及对情感分析、毒性检测和讽刺检测等任务的性能影响。

Mar, 2024

通过提示工程实现 ChatGPT 越狱：一项实证研究

本研究研究了 Large Language Models（LLMs）中存在的内容限制和潜在误用的挑战，并调查了与破解 LLMs 相关的三个关键问题：不同提示类型的数量、提示对抗 LLMs 限制的有效性以及 ChatGPT 对这些提示的鲁棒性。该研究根据分类模型分析现有提示的分布，识别了 10 种不同模式和三种破解提示类别。此外，研究利用 8120 个问题的数据集，评估了 ChatGPT 版本 3.5 和 4.0 中破解提示的能力，最终发现提示可以在 40 个用例场景中始终逃脱限制。该研究强调了提示结构在破解 LLMs 中的重要性，并讨论了生成和防止鲁棒破解提示的挑战。

May, 2023

利用基于提示的数据增强提高黑盒少样本文本分类

本文提出了一种名为 BT-Classifier 的方法，它通过对数据进行数据增强、把黑盒模型作为特征提取器以及使用小型的辅助语言模型的 prompt-based 微调训练分类器，达到了在不访问大型模型的梯度的情况下优化零样本学习任务的效果，并在 8 个文本分类数据集上取得了与全模型调整方法相当的成果。

May, 2023

ChatGPT 在自然语言处理任务中的极限挑战

通过添加模块的方式提高 ChatGPT 在各种自然语言处理任务中的表现，解决了 token，生成能力以及 LLMs 模型特有问题等方面的挑战并在 21 个数据集的 10 个代表性任务中获得了与监督学习基线相当甚至更好的表现.

Jun, 2023