Jun, 2024
深度学习和语言模型中注入无法检测到的后门
Injecting Undetectable Backdoors in Deep Learning and Language Models
Alkis Kalavasis, Amin Karbasi, Argyris Oikonomou, Katerina Sotiraki, Grigoris Velegkas...
TL;DR利用密码学技术,我们研究了机器学习模型中潜在的不可检测的后门问题,探索了外部专家公司设计模型中的潜在威胁,并引入了隐写功能来扩展神经网络后门攻击到语言模型中。