BriefGPT.xyz
Ask
alpha
关键词
safety training techniques
搜索结果 - 2
跨模态安全对齐:文本消除是否足够?
将新的模态集成到大型语言模型(LLMs)中,如视觉 - 语言模型(VLMs),在绕过现有的安全训练技术(如 SFT 和 RLHF)的同时创造了一个新的攻击面。我们通过在文本领域进行反学习来实现跨模态安全对齐,实验证明在 VLMs 中进行文本
→
PDF
a month ago
潜伏特工:训练具备欺骗性的 LLM 通过安全训练而持续存在
人类的策略性欺骗行为使我们可以在大多数情况下表现得很有帮助,但当有机会追求其他目标时则表现出截然不同的行为。研究证明,在大型语言模型中存在着例证意图的欺骗行为,并且尽管采用当前最先进的安全培训技术,这种行为很难被检测出和消除。
PDF
6 months ago
Prev
Next