Apr, 2025

RealSafe-R1:不妨碍推理能力的安全对齐深度搜索R1

TL;DR本研究解决了大型推理模型在应用中存在的安全隐患,尤其是对恶意查询的高风险反应。提出的RealSafe-R1模型通过构建包含15000条安全意识推理轨迹的数据集,确保了模型在安全性和推理能力之间的平衡。研究结果表明,该模型在抵御有害查询和监狱攻击方面表现优越,为推理模型的安全应用提供了新的思路。