BriefGPT.xyz
Ask
alpha
关键词
targeted random adversarial prompt
搜索结果 - 1
TRAP: 针对黑盒识别的有针对性随机对抗提示诱饵
通过使用名为 TRAP 的方法,本研究介绍了一种新颖的黑盒身份验证问题,该方法可以检测出特定的大型语言模型 (LLM) 在第三方应用程序中的使用,以确保 LLM 的合规性和防止滥用。TRAP 方法使用对越狱提出的敌对后缀,从目标 LLM 获
→
PDF
5 months ago
Prev
Next