Jul, 2024

$R^2$-Guard: 通过知识增强的逻辑推理实现强化的 LLM 防护栏

TL;DR提出了 $R^2$-Guard,一种通过知识增强的逻辑推理实现的稳健推理型 LLM 安全防护措施,通过在数据驱动的防护模型和基于概率图模型的推理组件之间嵌入安全知识实现对各个安全分类的有效推理和辨别,有效性经过与八个强防护模型的对比以及对四种 SOTA 越狱攻击的鲁棒性测试得到验证。