Apr, 2025

STAR-1:基于1K数据的更安全推理大型模型对齐

TL;DR本文提出了STAR-1,一个专为大型推理模型(LRMs)设计的高质量、安全数据集,仅规模为1K。该研究通过整合多样的开源安全数据集,制定安全政策并生成相应的推理样本,从而显著提高了LRMs的安全对齐性能,实验证明在四个基准测试中安全性能平均提升了40%,而推理能力仅平均下降1.1%。