May, 2023
通过提示工程实现ChatGPT越狱:一项实证研究
Jailbreaking ChatGPT via Prompt Engineering: An Empirical Study
TL;DR本研究研究了Large Language Models(LLMs)中存在的内容限制和潜在误用的挑战,并调查了与破解LLMs相关的三个关键问题:不同提示类型的数量、提示对抗LLMs限制的有效性以及ChatGPT对这些提示的鲁棒性。该研究根据分类模型分析现有提示的分布,识别了10种不同模式和三种破解提示类别。此外,研究利用8120个问题的数据集,评估了ChatGPT版本3.5和4.0中破解提示的能力,最终发现提示可以在40个用例场景中始终逃脱限制。该研究强调了提示结构在破解LLMs中的重要性,并讨论了生成和防止鲁棒破解提示的挑战。