Oct, 2024

可控安全对齐:推理时间适应多样化安全需求

TL;DR本研究解决了大型语言模型在安全对齐中的灵活性不足问题,特别是针对不同文化和用户安全需求的单一静态标准的局限性。提出的可控安全对齐(CoSA)框架允许用户在推理时根据安全配置动态调整模型行为,避免了重新训练的需要。研究结果表明,CoSAlign显著提升了模型的可控性,使其更好地代表和适应多元化的人类价值观,从而增强了模型的实用性。