Nov, 2024

灵活的大型语言模型防护措施开发方法论:应用于主题偏离提示检测

TL;DR本研究解决了大型语言模型在非目标使用中面临的挑战,现有防护措施存在误报率高和适应性不足的问题。通过定义问题空间并生成多样化的提示,构建了合成数据集,以提升防护措施的有效性,结果表明新方法优于传统启发式方法。此外,研究还开源了合成数据集和防护模型,为预生产环境中的防护开发和未来研究提供支持。