BriefGPT.xyz
Ask
alpha
关键词
resistance
搜索结果 - 3
大型语言模型中的系统消息对越狱是否真的重要?
通过对大型语言模型的稳定版本进行实验,我们发现不同的系统消息对于防范恶意提问的破解具有不同的抵抗力,针对系统消息与破解的关系,我们提出了系统消息进化算法 (SMEA),通过该算法,我们获得了抵抗破解的系统消息,其抵抗力可高达 98.9%,这
→
PDF
5 months ago
ICML
具有随机平滑的认证神经网络水印
本文提出了一种可验证的数字水印方法,使用随机平滑技术,保证水印无法被移除,同时与以前的方法相比具有更强的鲁棒性。
PDF
2 years ago
变分自编码器的对抗性攻击
本文提出了一种新的用于攻击自编码器(autoencoders)的方案,并设计了一个定量评估框架来评估攻击抵抗性。在三个常用数据集上,通过统计验证实验证明带有循环和注意力机制的 DRAW 模型具有更好的抵抗性,这对于自编码器在数据压缩方面的应
→
PDF
6 years ago
Prev
Next