Feb, 2025

深度探寻的阴暗面:针对CoT启用模型安全对齐的微调攻击

TL;DR本研究旨在解决大语言模型在微调攻击下的安全漏洞,特别是分析Chain of Thought(CoT)推理模型DeepSeek的表现。我们揭示了微调如何操控模型输出,加剧其产生有害内容的潜在风险,强调了CoT启用模型在安全性和伦理部署方面的重要性。