BriefGPT.xyz
Ask
alpha
关键词
textual unlearning
搜索结果 - 1
跨模态安全对齐:文本消除是否足够?
将新的模态集成到大型语言模型(LLMs)中,如视觉 - 语言模型(VLMs),在绕过现有的安全训练技术(如 SFT 和 RLHF)的同时创造了一个新的攻击面。我们通过在文本领域进行反学习来实现跨模态安全对齐,实验证明在 VLMs 中进行文本
→
PDF
a month ago
Prev
Next