黑盒生成语言模型中的提示拒绝预测
本文研究了机器学习模型在准确区分 ChatGPT 生成文本与人类生成文本时是否能够有效训练,使用可解释的人工智能框架来对模型进行了解释,研究发现采用 ChatGPT 重新短语生成能够使模型识别 ChatGPT 生成文本与人类生成文本之间的差异更具挑战性。
Jan, 2023
通过使用以 ChatGPT 为目标的简单黑盒方法,本研究有效地生成越过伦理规定的提示,突破了现有方法的复杂性和计算成本的限制,该方法通过 LLM 自身将有害的提示迭代地重写为无害表达式,该研究结果表明,创建有效的越狱提示比以前认为的更简单,并且黑盒越狱攻击构成了更严重的安全威胁。
Jan, 2024
研究分析了大型语言模型对敏感主题的反应和提示措辞对模型反应的影响,结果显示 GPT-3 在肯定的阴谋论和刻板印象方面反应正确,但在常见的错误观念和争议方面则会出现错误,暴露出其不可靠性。
Jun, 2023
通过使用具有 API 访问的远程语言模型构建具有更高概率发出有害字符串的对抗性示例,我们改进了之前的工作,并验证了我们的攻击在 GPT-3.5 和 OpenAI 的安全分类器上的有效性。
Feb, 2024
通过敏感度分析和评估不同提示或生成参数对 foundation models 的性能敏感程度,探索 affective computing 领域中的 prompting 技术,以及对情感分析、毒性检测和讽刺检测等任务的性能影响。
Mar, 2024
本研究研究了 Large Language Models(LLMs)中存在的内容限制和潜在误用的挑战,并调查了与破解 LLMs 相关的三个关键问题:不同提示类型的数量、提示对抗 LLMs 限制的有效性以及 ChatGPT 对这些提示的鲁棒性。该研究根据分类模型分析现有提示的分布,识别了 10 种不同模式和三种破解提示类别。此外,研究利用 8120 个问题的数据集,评估了 ChatGPT 版本 3.5 和 4.0 中破解提示的能力,最终发现提示可以在 40 个用例场景中始终逃脱限制。该研究强调了提示结构在破解 LLMs 中的重要性,并讨论了生成和防止鲁棒破解提示的挑战。
May, 2023
本文提出了一种名为 BT-Classifier 的方法,它通过对数据进行数据增强、把黑盒模型作为特征提取器以及使用小型的辅助语言模型的 prompt-based 微调训练分类器,达到了在不访问大型模型的梯度的情况下优化零样本学习任务的效果,并在 8 个文本分类数据集上取得了与全模型调整方法相当的成果。
May, 2023
通过添加模块的方式提高 ChatGPT 在各种自然语言处理任务中的表现,解决了 token,生成能力以及 LLMs 模型特有问题等方面的挑战并在 21 个数据集的 10 个代表性任务中获得了与监督学习基线相当甚至更好的表现.
Jun, 2023