BriefGPT.xyz
大模型
Ask
alpha
关键词
security breaches
搜索结果 - 3
机器取消学习:解决方案与挑战
机器遗忘是一项关键技术,用于选择性地移除训练数据点对训练模型的影响。本文提供了机器遗忘研究的全面分类和分析,并回顾了最新的解决方案,讨论了其优势和限制,并提出了未来的发展方向,以推动机器遗忘作为一项必要的可信和自适应机器学习能力。
PDF
a year ago
欺骗 LLMs 反抗:理解、分析和预防越狱
本研究提出了形式主义和已知(和可能的)越狱攻击分类,并在开源和商业 LLM(如 GPT 3.5,OPT,BLOOM 和 FLAN-T5-xxl)上进行了现有越狱方法及其有效性的调查;我们进一步提出了一组有限的提示守卫,并讨论了其对已知攻击类
→
PDF
a year ago
CVPR
通用对抗扰动
本文研究了深度神经网络分类器,发现存在普适的微小扰动对所有图像都造成高概率的错误分类,并提出了计算普适扰动的系统算法,证明现有神经网络非常容易受到该扰动攻击,从而出现对人眼几乎无法察觉的误分类。我们为了进一步探究这些扰动,对多个神经网络进行
→
PDF
8 years ago
Prev
Next