Aug, 2024

大型语言模型中的有毒提示高效检测

TL;DR本研究针对大型语言模型(如ChatGPT和Gemini)中有毒提示的检测问题,提出了一种轻量级的灰盒方法ToxicDetector。该方法利用模型生成有毒概念提示,结合特征向量和多层感知机分类器进行检测,测试结果表明其准确率达到96.39%,且处理时间短,适合实时应用,显著优于现有技术。