BriefGPT.xyz
Ask
alpha
关键词
scenario manipulation
搜索结果 - 1
基于大型语言模型的决策制定中的后门攻击探索
这篇论文介绍了第一个全面的框架用于针对基于大型语言模型的决策系统的后门攻击,系统地探索了如何在微调阶段通过不同的渠道引入此类攻击。具体而言,作者提出了三种攻击机制和相应的后门优化方法,以攻击 LLM 决策管道中的不同组件:单词注入、场景操纵
→
PDF
a month ago
Prev
Next