Feb, 2025
深度探寻的阴暗面:针对CoT启用模型安全对齐的微调攻击
The dark deep side of DeepSeek: Fine-tuning attacks against the safety
alignment of CoT-enabled models
TL;DR本研究旨在解决大语言模型在微调攻击下的安全漏洞,特别是分析Chain of Thought(CoT)推理模型DeepSeek的表现。我们揭示了微调如何操控模型输出,加剧其产生有害内容的潜在风险,强调了CoT启用模型在安全性和伦理部署方面的重要性。