Mar, 2024

大规模语言模型在提示注入攻击下的机器翻译伸缩行为

TL;DR研究了大型语言模型在机器翻译任务上的指令注入攻击,发现在某些条件下,更大的模型可能更容易受到成功攻击的影响,这是多语言环境下非平凡的语言模型缩放行为研究的首次工作。