BriefGPT.xyz
Apr, 2025
STAR-1:基于1K数据的更安全推理大型模型对齐
STAR-1: Safer Alignment of Reasoning LLMs with 1K Data
HTML
PDF
Zijun Wang, Haoqin Tu, Yuhan Wang, Juncheng Wu, Jieru Mei...
TL;DR
本文提出了STAR-1,一个专为大型推理模型(LRMs)设计的高质量、安全数据集,仅规模为1K。该研究通过整合多样的开源安全数据集,制定安全政策并生成相应的推理样本,从而显著提高了LRMs的安全对齐性能,实验证明在四个基准测试中安全性能平均提升了40%,而推理能力仅平均下降1.1%。
Abstract
This paper introduces STAR-1, a high-quality, just-1k-scale safety
Dataset
specifically designed for
Large Reasoning Models
(LRMs) like
DeepSeek-
→