Oct, 2024
微调的大型语言模型(LLMs):改进的提示注入攻击检测
Fine-tuned Large Language Models (LLMs): Improved Prompt Injection
Attacks Detection
TL;DR本研究解决了大型语言模型(LLMs)在应用过程中面临的提示注入攻击的安全漏洞问题。研究采用了预训练和微调的LLM两种方法进行检测比较,发现微调模型在准确率、精确度等指标上表现优异,达到了99.13%的准确率,极大地提升了提示注入攻击的检测效率。这一发现为提升LLMs的安全性提供了重要的解决方案。