Jul, 2024

$R^2$-Guard: 通过知识增强的逻辑推理实现强化的LLM防护栏

TL;DR提出了$R^2$-Guard,一种通过知识增强的逻辑推理实现的稳健推理型LLM安全防护措施,通过在数据驱动的防护模型和基于概率图模型的推理组件之间嵌入安全知识实现对各个安全分类的有效推理和辨别,有效性经过与八个强防护模型的对比以及对四种SOTA越狱攻击的鲁棒性测试得到验证。