Apr, 2024

三明治攻击:针对 LLMs 的多语言混合自适应攻击

TL;DR本文介绍了一种新的黑盒攻击向量 —— 三明治攻击,通过操纵最先进的大型语言模型(LLMs)生成有害和不一致的回答,旨在引导未来的研究和发展,使 LLMs 更加安全可靠,确保它们为公共利益服务并最大程度地减少滥用的潜力。