BriefGPT.xyz
大模型
Ask
alpha
关键词
security risk
搜索结果 - 4
基于双模态神经架构搜索的直接 Gumbel Softmax 估计用于音视频深度伪造检测
深度伪造是生物特征认证的主要安全风险,本论文引入了 STGS 框架来搜索多模态融合模型结构并优化网络架构、参数和性能,实验证明了其在伪造视频检测上的出色成果。
PDF
15 days ago
上下文学习可以重新学习被禁止的任务
通过研究 LLMs 模型的安全训练以及禁止任务的学习,本文探讨了在明确禁止模型回答任务的情况下,是否可以使用上下文学习(ICL)重新学习这些任务。研究结果显示,ICL 可以成功地破坏安全训练,从而带来了重大的安全风险。
PDF
5 months ago
SSTA: 显著空间变形攻击
本文提出了一种新颖的框架 Salient Spatially Transformed Attack (SSTA),用于生成不可察觉的对抗性样本(AE),通过在最关键区域上估计平滑的空间变换度量来提高 AE 的隐匿性,相比其他方法,SSTA
→
PDF
7 months ago
EMNLP
条件对抗正则化自编码器对文本数据集的毒性攻击
本文研究证明自然语言推理和文本分类系统中的致命性漏洞,并提出了 “后门毒化” 攻击的方法,该攻击利用条件对抗正则化自编码器(CARA)在潜在空间中注入毒素来生成毒化训练样本并导致系统面临严重的安全风险。
PDF
4 years ago
Prev
Next