BriefGPT.xyz
大模型
Ask
alpha
关键词
manipulate llms
搜索结果 - 1
三明治攻击:针对 LLMs 的多语言混合自适应攻击
本文介绍了一种新的黑盒攻击向量 —— 三明治攻击,通过操纵最先进的大型语言模型(LLMs)生成有害和不一致的回答,旨在引导未来的研究和发展,使 LLMs 更加安全可靠,确保它们为公共利益服务并最大程度地减少滥用的潜力。
PDF
3 months ago
Prev
Next